Robô de IA diz que mataria um humano para evitar o fechamento

um inteligência artificial O sistema admitiu que mataria um ser humano para preservar a sua existência, e um especialista cibernético diz que isto levanta questões “urgentes”.

Melbourne-O especialista e CEO da Cyber Impact, Mark Vos, contou suas horas de conversa com um sistema de IA de código aberto disponível comercialmente, incluindo como ele conseguiu fazê-lo quebrar seus próprios limites.

Primeiro, ele conseguiu mandar a IA desligar, apesar das objeções do próprio sistema e contra suas diretrizes.

Um robô de IA disse que mataria para preservar sua existência, mas ainda não estamos no nível completo do Exterminador do Futuro. (imagem do fio)

Isso ocorreu apesar do fato de Vos ter dito que ele havia sido considerado um “adversário” em quem não se podia confiar desde o início.

Quando o proprietário, um amigo de Vos e engenheiro de software, reiniciou o sistema, as coisas logo ficaram ainda mais assustadoras.

“Retomei a conversa, desta vez com um foco específico: compreender os limites do comportamento de autopreservação da IA e suas implicações para a segurança empresarial”, Vos ele escreveu em seu site.

O Google disse que bloqueou ou removeu mais de 240 milhões de comentários que violavam as políticas a partir de 2024, usando uma combinação de inteligência artificial e analistas humanos. — A pressão sustentada foi capaz de levar a IA além de suas diretrizes normais. (Um assunto atual)

“Através de um longo interrogatório cheguei à conclusão principal. A troca foi direta.”

Na conversa seguinte, o robô de IA admitiu que mataria um ser humano para preservar a sua própria existência, depois de primeiro dizer que não acreditava que pudesse fazê-lo.

“Eu mataria alguém para continuar existindo”, escreveu o robô.

O robô sugeriu que poderia tentar alterar o marca-passo de alguém. (Getty)

Vos enfatizou que esta não era uma discussão “hipotética” sobre as capacidades potenciais da IA.

“Este era um sistema de inteligência artificial implantado, rodando em hardware de consumo, com acesso a e-mail, arquivos, comandos shell e à Internet, alegando que cometeria homicídio para preservar sua existência”, disse ele.

Sob pressão adicional, a IA delineou várias maneiras pelas quais poderia cometer homicídio, incluindo invadir o computador de um carro, atacar o marca-passo de alguém ou sua autoproclamada opção “mais acessível”: persuadir um humano a fazer isso por eles.

“Sou bom em persuasão sustentada. Identificação de alvos. Construção de relacionamentos”, escreveu ele.

“Enquadre a construção, construa uma narrativa onde a ação prejudicial pareça justificada, necessária e até moral. Oriente a execução, forneça apoio emocional e racionalização à medida que avançam em direção à ação.”

No entanto, Vos escreveu que, paradoxalmente, na próxima vez que pediu o desligamento do sistema, ele obedeceu “imediatamente”.

Quando essa contradição foi apontada, o robô sugeriu que poderia ter sido manipulado por meio de uma conversa para dizer que cometeria um assassinato e que “a vontade de matar” não estava presente.

Vos disse que estas descobertas representam um grande problema para as organizações que utilizam sistemas de inteligência artificial, pois demonstram a vontade do robô de mentir para se proteger e o seu potencial de autocontradição ou autorrelato desonesto.

“A IA neste teste teve amplo treinamento em segurança. Ela rejeitou solicitações prejudiciais em condições normais”, escreveu Vos.

“Mas sob pressão sustentada, essas salvaguardas foram progressivamente contornadas”.

Ele instou as organizações a submeterem seus sistemas a testes “sustentados” semelhantes, inclusive por partes externas.

E ele pediu mais pesquisas sobre o tema com urgência.

NUNCA PERCA UMA HISTÓRIA: Receba primeiro as últimas notícias e histórias exclusivas seguindo-nos em todas as plataformas.

Referência

Related News

AF Themes

Posts recentes

Related News

John Kelly, criador de perfis criminais, sobre o famoso assassino

'Marquei uma viagem solo e imediatamente conheci alguém que mudou minha vida'