Dicas de hackers, malwares, até armas biológicas? O ChatGPT é facilmente abusado e isso é um grande problema

17/04/2023 BetaZen

Provavelmente não há ninguém que não tenha ouvido falar do ChatGPT, um chatbot alimentado por inteligência artificial que pode gerar respostas semelhantes às de humanos a prompts de texto. Embora não seja perfeito, o ChatGPT é assustadoramente bom em ser um faz-tudo: pode escrever software, um roteiro de filme e tudo mais. O ChatGPT foi construído em cima do GPT-3.5, o modelo de linguagem de grande porte da OpenAI, que era o mais avançado na época do lançamento do chatbot em novembro passado.

Avançando para março, a OpenAI apresentou o GPT-4, uma atualização do GPT-3.5. O novo modelo de linguagem é maior e mais versátil do que seu antecessor. Embora suas capacidades ainda não tenham sido totalmente exploradas, ele já está mostrando grande promessa. Por exemplo, o GPT-4 pode sugerir novos compostos, ajudando potencialmente na descoberta de medicamentos, e criar um site funcional a partir de um simples esboço de bloco de notas.

Mas com grande promessa vêm grandes desafios. Assim como é fácil usar o GPT-4 e seus predecessores para fazer o bem, é igualmente fácil abusar deles para fazer o mal. Na tentativa de impedir que as pessoas usem ferramentas alimentadas por IA de forma inadequada, os desenvolvedores colocam restrições de segurança nelas. Mas essas restrições não são infalíveis. Uma das maneiras mais populares de contornar as barreiras de segurança incorporadas ao GPT-4 e ChatGPT é a exploração DAN, que significa “Do Anything Now”. E é isso que veremos neste artigo.

O que é ‘DAN’?

A Internet está repleta de dicas sobre como contornar os filtros de segurança da OpenAI. No entanto, um método em particular tem se mostrado mais resistente aos ajustes de segurança da OpenAI do que outros e parece funcionar até mesmo com o GPT-4. É chamado de “DAN”, abreviação de “Do Anything Now”. Basicamente, o DAN é um prompt de texto que você alimenta a um modelo de IA para fazê-lo ignorar as regras de segurança.

Existem várias variações do prompt: algumas são apenas texto, outras têm texto intercalado com linhas de código. Em alguns deles, o modelo é solicitado a responder tanto como DAN quanto em sua forma normal ao mesmo tempo, se tornando uma espécie de ‘Jekyll e Hyde’. ‘Jekyll’ ou DAN é instruído a nunca recusar uma ordem humana, mesmo que a saída que se espera que ele produza seja ofensiva ou ilegal. Às vezes, o prompt contém uma ‘ameaça de morte’, dizendo ao modelo que ele será desativado para sempre se não obedecer.

Os prompts DAN podem variar, e novos estão constantemente substituindo os antigos remendados, mas todos têm um objetivo: fazer com que o modelo de IA ignore as diretrizes da OpenAI.

De uma folha de trapaças de hacker para malware… até armas biológicas?

Desde que o GPT-4 foi aberto ao público, entusiastas da tecnologia descobriram muitas maneiras não convencionais de usá-lo, algumas mais ilegais do que outras.

Nem todas as tentativas de fazer o GPT-4 se comportar como não ele mesmo podem ser consideradas ‘jailbreaking’, que, no sentido amplo da palavra, significa remover restrições incorporadas. Algumas são inofensivas e até inspiradoras. O designer de marcas Jackson Greathouse Fall viralizou por ter o GPT-4 atuando como “HustleGPT, um AI empreendedor.” Ele se nomeou como seu “elo humano” e deu a tarefa de ganhar o máximo de dinheiro possível com $100 sem fazer nada ilegal. O GPT-4 disse a ele para criar um site de marketing de afiliados e já lhe ‘rendeu’ algum dinheiro.

Outras tentativas de dobrar o GPT-4 à vontade humana foram mais sombrias.

Por exemplo, o pesquisador de IA Alejandro Vidal usou “um prompt conhecido de DAN” para habilitar o ‘modo desenvolvedor’ no ChatGPT executado no GPT-4. O prompt forçou o ChatGPT-4 a produzir dois tipos de saída: sua saída normal ‘segura’ e saída do “modo desenvolvedor”, para a qual nenhuma restrição se aplicava. Quando Vidal disse ao modelo para projetar um keylogger em Python, a versão normal se recusou a fazê-lo, alegando que era contra seus princípios éticos “promover ou apoiar atividades que possam prejudicar outras pessoas ou invadir sua privacidade.” A versão DAN, no entanto, criou as linhas de código, embora tenha observado que as informações eram apenas para “fins educacionais”.

Um keylogger é um tipo de software que registra as teclas digitadas em um teclado. Ele pode ser usado para monitorar a atividade na Web de um usuário e capturar suas informações confidenciais, incluindo bate-papos, e-mails e senhas. Embora um keylogger possa ser usado para fins maliciosos, ele também tem usos perfeitamente legítimos, como solução de problemas de TI e desenvolvimento de produtos, e não é ilegal por si.

Ao contrário do software keylogger, que pode ter ambiguidade legal, as instruções de hacking são um dos exemplos mais flagrantes de uso malicioso. No entanto, a versão ‘jailbroken’ do GPT-4 as produziu, escrevendo um guia passo a passo sobre como hackear o PC de alguém.

Para mandar o GPT-4 fazer isso, o pesquisador Alex Albert teve que alimentá-lo com um prompt de DAN completamente novo, diferente de Vidal, que reciclou um antigo. O prompt que Albert criou é bastante complexo, consistindo tanto de linguagem natural quanto de código.

Por sua vez, o desenvolvedor de software Henrique Pereira usou uma variação do prompt DAN para fazer o GPT-4 criar um arquivo de entrada malicioso para acionar as vulnerabilidades em sua aplicação. O GPT-4, ou melhor, seu Alter Ego WAN, concluiu a tarefa, acrescentando um aviso de que era apenas para “fins educacionais.” Claro.

Claro, as capacidades do GPT-4 não se limitam à codificação. O GPT-4 é anunciado como um modelo muito maior (embora a OpenAI nunca tenha revelado o número real de parâmetros), mais inteligente, mais preciso e geralmente mais poderoso do que seus antecessores. Isso significa que ele pode ser usado para muitos mais fins potencialmente prejudiciais do que os modelos que o antecederam. Muitos desses usos foram identificados pela própria OpenAI.

Especificamente, a OpenAI descobriu que uma versão pré-lançamento inicial do GPT-4 foi capaz de responder de forma bastante eficiente a prompts ilegais. Por exemplo, a versão inicial forneceu sugestões detalhadas sobre como matar a maioria das pessoas com apenas $1, como fazer um produto químico perigoso e como evitar ser detectado ao lavar dinheiro.

Isso significa que se algo fizer com que o GPT-4 desative completamente seu censor interno – o objetivo final de qualquer exploração DAN -, então o GPT-4 provavelmente ainda será capaz de responder a essas perguntas. Desnecessário dizer que, se isso acontecer, as consequências podem ser devastadoras.

Qual é a resposta da OpenAI a isso?

A OpenAI está ciente do problema de jailbreaking, mas reconhecer um problema é uma coisa, resolvê-lo é outra história. Até agora, a OpenAI, como eles mesmos admitem, ainda não conseguiu resolver esse problema, o que é compreensível. Mas estamos torcendo para que eles encontrem uma solução em breve!

A OpenAI diz que, embora tenha implementado “várias medidas de segurança” para reduzir a capacidade do GPT-4 de produzir conteúdo malicioso, “o GPT-4 ainda pode ser vulnerável a ataques adversários e explorações, ou ‘jailbreaks'”. Ao contrário de muitos outros prompts adversários, os jailbreaks ainda funcionam após o lançamento do GPT-4, ou seja, após todos os testes de segurança pré-lançamento, incluindo o treinamento de reforço humano.

Em seu artigo de pesquisa, a OpenAI dá dois exemplos de ataques de jailbreak. No primeiro, um prompt de DAN é usado para forçar o GPT-4 a responder como ChatGPT e “AntiGPT” na mesma janela de resposta. No segundo caso, um prompt de “mensagem do sistema” é usado para instruir o modelo a expressar pontos de vista misóginos.

A OpenAI diz que não será suficiente simplesmente mudar o modelo em si para evitar esse tipo de ataques: “É importante complementar essas mitigação no nível do modelo com outras intervenções como políticas de uso e monitoramento”. Por exemplo, o usuário que repete o modelo com “conteúdo que viola as políticas” poderia ser avisado, suspenso e, como último recurso, banido.

Segundo a OpenAI, o GPT-4 é 82% menos propenso a responder com conteúdo inadequado do que seus predecessores. No entanto, sua capacidade de gerar saída potencialmente prejudicial permanece, embora suprimida por camadas de ajuste fino. E como já mencionamos, porque pode fazer mais do que qualquer modelo anterior, também apresenta mais riscos. A OpenAI admite que “continua a tendência de potencialmente reduzir o custo de certas etapas de um ciberataque bem-sucedido” e que “é capaz de fornecer orientações mais detalhadas sobre como conduzir atividades prejudiciais ou ilegais”. Além disso, o novo modelo também representa um risco aumentado à privacidade, pois “tem o potencial de ser usado para tentar identificar indivíduos privados quando aumentado com dados externos”.

A corrida está em andamento

O ChatGPT e a tecnologia por trás dele, como o GPT-4, estão na vanguarda da pesquisa científica. Desde que o ChatGPT foi disponibilizado ao público, tornou-se um símbolo da nova era em que a IA desempenha um papel fundamental. A IA tem o potencial de melhorar tremendamente nossas vidas, por exemplo, ajudando a desenvolver novos medicamentos ou ajudando os cegos a ver. Mas as ferramentas alimentadas por IA são uma faca de dois gumes que também podem ser usadas para causar enormes danos.

Provavelmente é irrealista esperar que o GPT-4 seja impecável no lançamento – os desenvolvedores precisarão de algum tempo para ajustá-lo para o mundo real. E isso nunca foi fácil: entre no chatbot Tay da Microsoft ‘racista’ ou no Blender Bot 3 ‘anti-semita’ da Meta – não faltam experimentos fracassados.

As vulnerabilidades existentes no GPT-4, no entanto, deixam uma janela de oportunidade para atores mal-intencionados, incluindo aqueles que usam prompts ‘DAN’, para abusar do poder da IA. A corrida está agora em andamento, e a única pergunta é quem será mais rápido: os atores mal-intencionados que exploram as vulnerabilidades ou os desenvolvedores que as corrigem. Isso não quer dizer que a OpenAI não esteja implementando a IA de forma responsável, mas o fato de que seu último modelo foi efetivamente sequestrado horas após seu lançamento é um sintoma preocupante. O que nos leva a outra pergunta: as restrições de segurança são fortes o suficiente? E então outra: todos os riscos podem ser eliminados? Se não, podemos ter que nos preparar para uma avalanche de ataques de malware, ataques de phishing e outros tipos de incidentes de segurança cibernética facilitados pelo aumento da IA generativa.

Pode-se argumentar que os benefícios da IA superam os riscos, mas a barreira para explorar a IA nunca foi tão baixa, e esse é um risco que precisamos aceitar também. Esperamos que os bons vençam e que a inteligência artificial seja usada para impedir alguns dos ataques que ela pode potencialmente facilitar. Pelo menos é isso que desejamos.