Notícias Hardware e Tecnologias Chat em vez de Photoshop: o Gemini 2.0 da Google aprende a editar imagens através do diálogo

Chat em vez de Photoshop: o Gemini 2.0 da Google aprende a editar imagens através do diálogo

Arkadiy Andrienko

13 de março de 2025, 12:45

Ler na versão completa

Google deu um passo inesperado na corrida da IA generativa ao introduzir uma versão multimodal experimental do Gemini 2.0 Flash no AI Studio. O modelo pode não apenas gerar imagens do zero, mas também modificar detalhes em fotos existentes através de uma interface de chat simples — sem precisar recriar toda a imagem. Esta é a primeira vez que um grande jogador introduz tal funcionalidade, superando a OpenAI e a xAI de Elon Musk.

Os usuários podem dar comandos ao Gemini em um formato de conversa, como "substituir o fundo por uma paisagem montanhosa" ou "adicionar uma legenda em russo." A IA mantém o contexto da conversa, permitindo uma série de edições progressivas. Por exemplo, os usuários podem mudar a roupa de uma pessoa, depois "movê-la" para um local diferente e, finalmente, ajustar a iluminação. Todas as mudanças são aplicadas diretamente à imagem original, economizando tempo e recursos.

Cada imagem gerada é automaticamente marcada com uma marca d'água SynthID — a tecnologia do Google para combater deepfakes. Isso é particularmente importante para designers e profissionais de marketing, que agora podem usar legalmente o conteúdo em projetos comerciais. Recursos menos óbvios, mas igualmente impressionantes, incluem clonagem de texturas, coloração de fotos antigas e até mesmo "preenchimento" de elementos ausentes em imagens usando sugestões baseadas em texto.

Embora o Gemini 2.0 Flash entenda comandos em russo, o serviço não está oficialmente disponível na Rússia. Desenvolvedores e empresas podem testar o modelo gratuitamente através do AI Studio ou API, mas alguns recursos, como troca de rostos ou restauração complexa, permanecem instáveis. O Google enfatiza que esta é uma versão inicial, e o lançamento final será otimizado para tarefas em tempo real.

Especialistas observam que o Google combinou, pela primeira vez, a flexibilidade criativa do Midjourney, a precisão do DALL-E e a interatividade do ChatGPT em um único modelo. Se o experimento se mostrar bem-sucedido, isso pode simplificar significativamente o trabalho em design, educação e até mesmo jornalismo — permitindo visualização instantânea de dados ou criação de ilustrações de artigos sem envolvimento humano. Por enquanto, o Gemini 2.0 Flash continua sendo uma ferramenta intrigante que já está redefinindo as possibilidades da IA generativa.

Notícias Hardware e Tecnologias Google

Sobre o autor

Arkadiy Andrienko

Autor de artigos e notícias

Como jornalista técnico da VGTimes, discuto com igual prazer as mais recentes placas gráficas e me aprofundo nas sutilezas dos RPGs clássicos. Desde 2018, escrevo sobre jogos e hardware, minha experiência em engenharia de som me permitiu entender bem as nuances das tecnologias de áudio, e estou sempre em busca de algo novo no campo do hardware de jogos. Quando não estou escrevendo sobre tecnologias, provavelmente estou explorando as terras pós-apocalípticas em Fallout, gerenciando uma colônia em RimWorld ou comandando exércitos em Hearts of Iron IV. Para mim, jogos são mais do que apenas um hobby — são uma paixão que alimenta meu potencial criativo e mantém uma conexão com o mundo em constante evolução da tecnologia.

Comentários0

Deixar um comentário