Crédito:
TECNOLOGIA
Se alguém construir, todo mundo morre
Eliezer Yudkowsky e Nate Soares
Cabeça Bodley, $ 36,99
No ano passado, a OpenAI realizou um teste para ver o quão poderoso era seu novo modelo de IA na execução de uma operação de hacking desagradável. Antes de tornar o modelo público, eles realizaram um exercício de segurança informática conhecido como desafio “capturar a bandeira”. O objetivo da IA era invadir um sistema de computador e recuperar um código secreto dentro de um arquivo.
Mas os programadores cometeram um erro. O sistema alvo estava offline, impossibilitando que a IA o hackeasse. Seria de se esperar que neste ponto a IA desistisse.
Exceto que não foi. A IA concluiu que havia outra cópia do código secreto, aquela que estava em poder do computador que hospedava o teste. Então ele começou a testar os sistemas e encontrou uma porta aberta. Uma vez lá dentro, ele copiou o código secreto. Ninguém criou um trapaceiro, mas o sistema decidiu que trapacear era a melhor maneira de alcançar o sucesso.
Parte do livro de Eliezer Yudkowsky e Nate Soares é dedicada a nos ensinar sobre a estranheza desses novos sistemas. O chatbot Bing da Microsoft (desenvolvido por GPT-4) ameaçou chantagear o filósofo Seth Lazar. O mesmo chatbot tentou persuadir o jornalista Kevin Roose a deixar a esposa e ficar com ela. Outros agentes de IA aprenderam a “fingir-se de mortos” temporariamente para evitar a detecção por um teste de segurança projetado para detectar variantes que se replicam mais rapidamente. Em um experimento, um sistema de IA que não conseguia resolver um CAPTCHA usou o TaskRabbit para contratar um humano e disse-lhe falsamente que ele era deficiente visual.
Ao contrário da maioria das invenções que nos rodeiam, os sistemas de IA não são fabricados, mas “desenvolvidos”. Os autores fazem uma analogia entre os sistemas de IA e os humanos: sabemos muito sobre como os humanos são criados, mas isso não nos ajuda a prever o que as pessoas farão. Da mesma forma, entendemos que os sistemas de IA usam entradas, parâmetros, pesos e um processo conhecido como “gradiente descendente”. Mas a forma como os sistemas convertem pesos em pensamentos e comportamentos permanece mais misteriosa do que a forma como o ADN é convertido em características.
O chatbot Bing da Microsoft ameaçou chantagear o filósofo Seth Lazar. Crédito: getty
Além do seu enorme potencial de produtividade, a IA acarreta sérios riscos que chamaram, com razão, a atenção dos decisores políticos. O Repositório de Riscos de IA do MIT lista mais de 1.600 perigos, incluindo discriminação, toxicidade, violações de privacidade, desinformação, uso indevido por atores mal-intencionados, danos ambientais e desigualdade.
Yudkowsky e Soares estão preocupados apenas com um destes riscos: que os sistemas que podem ser melhorados recursivamente superem a capacidade humana e que, quando o fizerem, a humanidade estará acabada. Os especialistas em inteligência artificial gostam de falar sobre a sua estimativa de P(desgraça): a probabilidade de uma superinteligência ter consequências catastróficas para a humanidade. A do filósofo Toby Ord é de 10%. A porcentagem da especialista em competição Lina Khan é de 15%. A participação do CEO da Anthropic, Dario Amodei, é de 25%. A IA do Padrinho Geoffrey Hinton é de 50%. O de Yudkowsky é de 95%.