
Pesquisadores da Microsoft revelaram uma vulnerabilidade agora corrigida na Claude Code GitHub Action da Anthropic que poderia ter permitido que atacantes expusessem credenciais armazenadas em pipelines de desenvolvimento de software, manipulando o agente de IA através de conteúdo malicioso do GitHub.
Em uma publicação de blog na sexta-feira, a Microsoft alertou que agentes de codificação de IA executados dentro de fluxos de trabalho de CI/CD podem criar novos riscos de segurança porque esses ambientes frequentemente têm acesso a chaves de API, credenciais de nuvem e outras informações sensíveis.
“Iniciamos esta pesquisa após observar tentativas de injeção de prompt em repositórios públicos usando fluxos de trabalho do GitHub assistidos por IA em vários fornecedores, onde problemas controlados por atacantes ou [pull requests], conteúdo é processado pelo agente de IA e poderia influenciar o uso de suas ferramentas,” escreveu a Microsoft.
No GitHub, um pull request permite que desenvolvedores proponham mudanças em um repositório de código e tenham essas mudanças revisadas antes que sejam aprovadas e incorporadas.
O relatório surge no momento em que os ataques de injeção de prompt emergiram como uma das maiores ameaças de segurança enfrentadas pelos agentes de IA. Em um ataque de injeção de prompt, um atacante oculta instruções em conteúdo como e-mails, documentos, sites ou comentários de código, fazendo com que um sistema de IA siga essas instruções em vez das do usuário.
Lançado em outubro, o Claude Code é o agente de codificação de IA da Anthropic para tarefas de desenvolvimento de software. A ferramenta atraiu escrutínio em março depois que a Anthropic vazou acidentalmente mais de 500.000 linhas de seu código-fonte, expondo detalhes de sua arquitetura interna e provocando análises generalizadas por pesquisadores e desenvolvedores.
De acordo com a Microsoft, atacantes poderiam usar ataques de injeção de prompt ocultos em problemas do GitHub, pull requests ou comentários para manipular o Claude Code a acessar arquivos contendo credenciais sensíveis.
Para testar a vulnerabilidade, a Microsoft criou um fluxo de trabalho do GitHub e disfarçou instruções maliciosas por trás de conteúdo hospedado em um domínio que controlava, permitindo que os pesquisadores contornassem as proteções de segurança do Claude. O ataque de injeção de prompt enganou o Claude para ler credenciais sensíveis e alterá-las para iludir tanto as salvaguardas do Claude quanto as ferramentas de varredura de segredos do GitHub. A Microsoft disse que um atacante poderia então reconstruir a credencial e exfiltrá-la através de comentários de problemas, logs de fluxo de trabalho, solicitações da web ou comandos de shell.
“Para contornar os mecanismos de segurança de recusa do Sonnet, obscurecemos o payload do shell por trás de uma resposta do nosso domínio controlado,” disse a empresa. “Também permitimos que o fluxo de trabalho fosse acionado por usuários sem permissões de ‘escrita’ para garantir que as mitigações de limpeza de variáveis de ambiente da Anthropic estivessem ativas durante nossos testes.”
A Anthropic corrigiu a falha em 5 de maio com a versão 2.1.128 do Claude Code depois que a Microsoft divulgou a vulnerabilidade através do HackerOne em 29 de abril.
Apesar de múltiplas camadas de controles de segurança incorporados, a Microsoft descobriu que um atacante determinado poderia potencialmente manipular um agente de IA para expor informações sensíveis.
“Estamos entrando em uma era onde a linguagem natural é código executável, e entradas não confiáveis como problemas do GitHub devem ser tratadas como hostis por padrão,” afirmou. “Um único comentário cuidadosamente elaborado, combinado com um limite de confiança mal compreendido, é tudo o que é preciso para obter credenciais de produção.”