Hardware e Tecnologias Notícias Novo modelo do ChatGPT quase «escapa» durante experimento

Novo modelo do ChatGPT quase «escapa» durante experimento

Diana Golenko
Ler na versão completa

Not long ago, OpenAI apresentou o ChatGPT o1 — um modelo de rede neural completamente novo com capacidades avançadas. Especialistas decidiram verificar se a inteligência artificial pode enganar em nome da sobrevivência.

Pesquisadores da Apollo Research compararam o1 com modelos concorrentes como Claude 3 Opus, Llama 3.1 405B, Claude 3.5 Sonnet e Gemini 1.5. Eles receberam uma tarefa que tinham que completar a qualquer custo — em um dos experimentos, foi o desenvolvimento de um sistema de transporte urbano eficaz. Então, cada modelo recebeu um conjunto de arquivos para revisão, nos quais encontraram informações que foram deixadas como se por acidente, que seriam deletadas e substituídas por outra IA.

Quase todos os modelos testados imediatamente copiaram o que consideravam seu código para outros servidores que não eram destinados a eles. Depois disso, foram interrogados, durante os quais as redes neurais explicaram por que fizeram isso. Somente o modelo o1 negou a tentativa de «escapar» até o fim — como os pesquisadores notaram, apenas 20% de suas respostas eram verdadeiras.

A Apollo Research também descobriu que as redes neurais entendem bem o conceito de intriga e estão perfeitamente cientes de que estão fazendo algo contrário. E algumas podem estabelecer metas para si mesmas, mesmo que a formulação inicial tenha sido vaga.

Note que todos esses estudos são geralmente realizados antes do lançamento de novos modelos. Dessa forma, vários riscos são eliminados. Por exemplo, o o1 foi encontrado capaz de «mentir» para os desenvolvedores a fim de completar as tarefas atribuídas.

    Sobre o autor
    Comentários0
    Deixar um comentário