Chat em vez de Photoshop: o Gemini 2.0 da Google aprende a editar imagens através do diálogo

Chat em vez de Photoshop: o Gemini 2.0 da Google aprende a editar imagens através do diálogo

Arkadiy Andrienko

Google deu um passo inesperado na corrida da IA generativa ao introduzir uma versão multimodal experimental do Gemini 2.0 Flash no AI Studio. O modelo pode não apenas gerar imagens do zero, mas também modificar detalhes em fotos existentes através de uma interface de chat simples — sem precisar recriar toda a imagem. Esta é a primeira vez que um grande jogador introduz tal funcionalidade, superando a OpenAI e a xAI de Elon Musk.

Os usuários podem dar comandos ao Gemini em um formato de conversa, como "substituir o fundo por uma paisagem montanhosa" ou "adicionar uma legenda em russo." A IA mantém o contexto da conversa, permitindo uma série de edições progressivas. Por exemplo, os usuários podem mudar a roupa de uma pessoa, depois "movê-la" para um local diferente e, finalmente, ajustar a iluminação. Todas as mudanças são aplicadas diretamente à imagem original, economizando tempo e recursos.

Cada imagem gerada é automaticamente marcada com uma marca d'água SynthID — a tecnologia do Google para combater deepfakes. Isso é particularmente importante para designers e profissionais de marketing, que agora podem usar legalmente o conteúdo em projetos comerciais. Recursos menos óbvios, mas igualmente impressionantes, incluem clonagem de texturas, coloração de fotos antigas e até mesmo "preenchimento" de elementos ausentes em imagens usando sugestões baseadas em texto.

Embora o Gemini 2.0 Flash entenda comandos em russo, o serviço não está oficialmente disponível na Rússia. Desenvolvedores e empresas podem testar o modelo gratuitamente através do AI Studio ou API, mas alguns recursos, como troca de rostos ou restauração complexa, permanecem instáveis. O Google enfatiza que esta é uma versão inicial, e o lançamento final será otimizado para tarefas em tempo real.

Especialistas observam que o Google combinou, pela primeira vez, a flexibilidade criativa do Midjourney, a precisão do DALL-E e a interatividade do ChatGPT em um único modelo. Se o experimento se mostrar bem-sucedido, isso pode simplificar significativamente o trabalho em design, educação e até mesmo jornalismo — permitindo visualização instantânea de dados ou criação de ilustrações de artigos sem envolvimento humano. Por enquanto, o Gemini 2.0 Flash continua sendo uma ferramenta intrigante que já está redefinindo as possibilidades da IA generativa.

    Sobre o autor
    Comentários0