Falhas no ChatGPT revelam nova categoria de risco em sistemas de IA

Vulnerabilidades permitem invasões silenciosas, persistência de comandos maliciosos e comprometimento de memórias do assistente virtual

ChatGPT – A Tenable Research revelou sete falhas críticas que colocam em risco a segurança e a privacidade dos usuários do ChatGPT. As brechas, observadas nas versões ChatGPT-4o e ChatGPT-5, permitem desde o roubo de dados até o controle prolongado de partes do sistema, abrindo espaço para manipulações de respostas e vazamentos de informações confidenciais. O conjunto de vulnerabilidades recebeu o nome de HackedGPT e representa uma nova categoria de ameaças para plataformas de inteligência artificial generativa.

Segundo a Tenable, as falhas afetam recursos centrais, como a navegação na web e a memória de longo prazo, ambos responsáveis por processar dados em tempo real e armazenar informações contextuais. Ao explorar essas brechas, invasores podem acessar históricos de conversa, documentos conectados a serviços externos e até dados corporativos. O alerta preocupa especialmente regiões em rápido crescimento no uso de IA, como a América Latina.

LEIA: Radiação cósmica pode ter mudado o cometa 3I/ATLAS

Um dos pontos mais preocupantes do estudo é a descoberta da injeção indireta de prompt, técnica em que comandos maliciosos são inseridos em páginas legítimas, comentários ou postagens nas redes sociais. Quando o ChatGPT acessa esse conteúdo, interpreta e executa instruções ocultas sem o conhecimento do usuário.

Esses ataques podem ocorrer sem qualquer interação – os chamados ataques 0 clique – ou exigir apenas um clique em um link aparentemente seguro (1 clique). Ambos exploram a confiança do modelo em fontes externas e a falta de isolamento completo entre os ambientes de navegação e memória.

Outra vulnerabilidade grave é a Injeção de Memória Persistente, em que comandos ocultos ficam gravados na memória do sistema mesmo após o encerramento da sessão. Isso permite que invasores mantenham controle sobre partes do assistente virtual e influenciem respostas futuras, o que caracteriza um tipo de comprometimento duradouro e de difícil detecção.

A Tenable listou sete formas principais de exploração:

1. Injeção indireta de prompt em sites legítimos.
2. Injeção de prompt 0 clique.
3. Injeção de prompt 1 clique.
4. Omissão do mecanismo de segurança por meio de endereços confiáveis.
5. Injeção de conversação em resultados de busca.
6. Ocultação de conteúdo malicioso via falhas de formatação.
7. Injeção de memória persistente.

Algumas dessas brechas já foram corrigidas, mas outras ainda não têm solução completa. Para os pesquisadores, os casos demonstram que, mesmo com mecanismos de segurança, os modelos de linguagem continuam vulneráveis a manipulações sofisticadas.

Recomendações

Além do risco individual, as falhas têm implicações diretas no ambiente empresarial, onde o acesso indevido a dados pode resultar em espionagem, roubo de propriedade intelectual e exposição de informações sigilosas.

A Tenable recomenda que empresas tratem as ferramentas de IA como superfícies de ataque ativas, realizando auditorias regulares, reforçando defesas contra injeções de prompt e limitando o acesso a dados sensíveis.

Para o engenheiro sênior Moshe Bernstein, responsável pelo estudo, o HackedGPT evidencia uma falha estrutural na forma como os grandes modelos de linguagem avaliam a confiabilidade das informações. Ele defende que a indústria adote padrões transparentes de segurança e frameworks específicos para IA generativa, de modo a garantir que a inovação tecnológica avance sem comprometer a privacidade dos usuários.

(Com informações de It Show)
(Foto: Reprodução/Freepik/Kitinut)

Facebook
Twitter
LinkedIn
Pinterest
Pocket
WhatsApp
Rolar para cima