
Os “deepfakes” de voz deixaram de ser uma raridade e tornaram-se um risco real para cidadãos e empresas. Hoje, basta guardar alguns segundos de áudio público para clonar uma voz e utilizá-la em ligações, mensagens ou videochamadas que imitam familiares, funcionários ou gestores com uma precisão alarmante. Depois a situação normalmente se repete: um pedido urgente de dinheiro, um incidente bancário ou uma notificação de que “não posso esperar”. Neste contexto, torna-se cada vez mais difícil distinguir o que é genuíno e qualquer mensagem inesperada começa a ser vista com desconfiança. A distância entre os “deepfakes” e as imitações clássicas já é enorme. José Antonio Marcos, reitor associado da Faculdade de Administração e Tecnologia da UAX, explica que o áudio gerado por IA reproduz timbre, ritmo e até pequenas nuances emocionais, “o que os torna especialmente autênticos”. Ele observa que com apenas 30 segundos de gravação, “você pode criar um clone robusto e gerar centenas de mensagens em um curto espaço de tempo”. Este realismo permitiu fraudes como a que forçou a empresa de engenharia britânica Arup a transferir mais de 200 milhões de dólares, ou o caso fracassado de fraude da Ferrari, em que se fez passar pela voz do seu CEO. A capacidade de imitar uma voz com tantos detalhes não se limita ao áudio gravado. Os ataques recentes produziram um fenómeno ainda mais preocupante: conversas em tempo real. Louis Corrons, especialista em segurança cibernética da Gen, comenta que a IA “pode modular a voz do golpista à medida que a conversa avança até que se torne quase indistinguível da voz do imitador”. O engano é potencializado quando áudio falso é combinado com vídeo criado artificialmente, capaz de replicar gestos e expressões faciais. Para Corrons, a combinação de espontaneidade e naturalidade transforma essas montagens em ferramentas altamente atraentes e facilmente reproduzíveis. A naturalidade destas montagens depende em grande parte de como é gerada a voz que as apoia. Miguel Lopez, diretor do Sul da Europa, Médio Oriente e África da Barracuda Networks, explica que o processo se tornou tão acessível que “não é mais necessária uma gravação extensiva para obter um modelo confiável”. Pequenos trechos retirados de uma mensagem do WhatsApp ou de um vídeo de mídia social “fornecem à IA material suficiente para reconstruir um perfil de áudio convincente”. Ele ressalta que com essa amostragem mínima, o sistema reproduz a voz em apenas alguns minutos e pode até utilizá-la durante chamadas reais. Na empresa, os danos causados pelas fraudes de voz clonada vão muito além das traduções perdidas. Paula Jans, vice-presidente e chefe de confiança digital da Capgemini Invent, observa que “esses incidentes levam a investigações internas, honorários advocatícios e reclamações que aumentam a conta final”. Mesmo sem exposição pública, minam a confiança de clientes e fornecedores. Os impactos internos também importam: a urgência operacional “é substituída por verificações constantes, o que atrasa as tarefas rotineiras e obriga-nos a trabalhar com estruturas mais rígidas do que o habitual”, explica. Segundo Rafael Palacios, diretor de inteligência artificial da Pontifícia Universidade de Comillas e professor do Comillas ICAI, esses golpes “quase nunca são improvisados”. Embora tentativas isoladas de engano possam ser feitas por indivíduos, “os casos bem-sucedidos vêm de organizações que coletaram antecipadamente informações detalhadas sobre a vítima para tornar sua mensagem mais convincente”, explica o especialista. Esta fase preliminar, acrescenta, poderá incluir pequenos contactos destinados apenas a obter informações de uma pessoa, empresa ou mesmo banco antes do ataque principal. Na sua experiência, a motivação é “quase sempre económica, o que incentiva a crescente profissionalização destes grupos”. No ambiente corporativo, esses golpes seguem um padrão que, apesar do realismo das vozes clonadas, é reconhecido por quem sabe onde procurar. Miguel Angel Tomás, responsável pela cibersegurança da NTT DATA, explica que os atacantes “normalmente criam uma urgência artificial para que a ação seja ‘feita agora’ e evitam qualquer verificação, muitas vezes através de canais inusitados como números desconhecidos, gravações de áudio do WhatsApp ou videochamadas sem câmara”. Essas comunicações “são baseadas em um roteiro rígido e emocionalmente plano, com pausas não naturais, microatrasos ou respostas incoerentes quando a conversa sai do roteiro”, explica Thomas. A precisão destas imitações torna cada vez mais difícil distingui-las de ouvido. Eduardo Prieto, CEO da Visa Espanha, comenta que “uma voz falsa pode soar completamente natural mesmo em situações que parecem rotineiras”. Mesmo assim, disse ele, geralmente há pequenos sinais, “como um ritmo que não se ajusta perfeitamente ou uma ligeira inconsistência quando o golpe envolve vídeo”. No entanto, o grande volume de materiais falsificados em circulação torna cada vez mais difícil distingui-los dos verdadeiros, afirma Gaston Fornes, professor da EAE Business School. Um dos problemas é que a inteligência artificial se tornou tão barata que qualquer um pode gerar áudio ou vídeo manipulado usando ferramentas automatizadas”, explica. Casos recentes mostram que esse engano não afeta apenas as grandes empresas. Corrons, do Gen, observa que “os indivíduos continuam a ser um alvo comum, desde sequestros virtuais imitando a voz de um parente até supostos agentes bancários solicitando senhas ou transferências urgentes usando gravações de áudio postadas on-line”. as compras geralmente estão na vanguarda, especialmente quando as comunicações passam por canais incomuns. Lopez, da Barracuda Networks, acrescenta que “alguns dos golpes mais sofisticados conseguiram induzir milhões de dólares em transferências por meio de ordens falsas enviadas em nome de diretores”. Prieto da Visa já observou que a IA pode reproduzir timbre e ritmo com grande precisão, mas raramente atinge a espontaneidade de uma voz real. “Verificação adicional para qualquer solicitação sensível e treinamento das equipes para desacelerar antes de reagir”, sugere respaldar essas reflexões com autenticação multifatorial e simulação habilitada por voz. Ao mesmo tempo, a inteligência artificial também permite que as empresas melhorem sua segurança. No entanto, os especialistas concordam que não há proteção confiável e o aumento dos deepfakes. a democratização das ferramentas está nos forçando a viver em um ambiente mais incerto, no qual a verificação se tornou uma rotina importante.