Notícias Hardware e Tecnologias Chat em vez de Photoshop: o Gemini 2.0 da Google aprende a editar imagens através do diálogo

Chat em vez de Photoshop: o Gemini 2.0 da Google aprende a editar imagens através do diálogo

Arkadiy Andrienko
Ler na versão completa

Google deu um passo inesperado na corrida da IA generativa ao introduzir uma versão multimodal experimental do Gemini 2.0 Flash no AI Studio. O modelo pode não apenas gerar imagens do zero, mas também modificar detalhes em fotos existentes através de uma interface de chat simples — sem precisar recriar toda a imagem. Esta é a primeira vez que um grande jogador introduz tal funcionalidade, superando a OpenAI e a xAI de Elon Musk.

Os usuários podem dar comandos ao Gemini em um formato de conversa, como "substituir o fundo por uma paisagem montanhosa" ou "adicionar uma legenda em russo." A IA mantém o contexto da conversa, permitindo uma série de edições progressivas. Por exemplo, os usuários podem mudar a roupa de uma pessoa, depois "movê-la" para um local diferente e, finalmente, ajustar a iluminação. Todas as mudanças são aplicadas diretamente à imagem original, economizando tempo e recursos.

Cada imagem gerada é automaticamente marcada com uma marca d'água SynthID — a tecnologia do Google para combater deepfakes. Isso é particularmente importante para designers e profissionais de marketing, que agora podem usar legalmente o conteúdo em projetos comerciais. Recursos menos óbvios, mas igualmente impressionantes, incluem clonagem de texturas, coloração de fotos antigas e até mesmo "preenchimento" de elementos ausentes em imagens usando sugestões baseadas em texto.

Embora o Gemini 2.0 Flash entenda comandos em russo, o serviço não está oficialmente disponível na Rússia. Desenvolvedores e empresas podem testar o modelo gratuitamente através do AI Studio ou API, mas alguns recursos, como troca de rostos ou restauração complexa, permanecem instáveis. O Google enfatiza que esta é uma versão inicial, e o lançamento final será otimizado para tarefas em tempo real.

Especialistas observam que o Google combinou, pela primeira vez, a flexibilidade criativa do Midjourney, a precisão do DALL-E e a interatividade do ChatGPT em um único modelo. Se o experimento se mostrar bem-sucedido, isso pode simplificar significativamente o trabalho em design, educação e até mesmo jornalismo — permitindo visualização instantânea de dados ou criação de ilustrações de artigos sem envolvimento humano. Por enquanto, o Gemini 2.0 Flash continua sendo uma ferramenta intrigante que já está redefinindo as possibilidades da IA generativa.

    Sobre o autor
    Comentários0
    Deixar um comentário