
Investigadores de Microsoft revelaron una vulnerabilidad, ya parcheada, en la acción Claude Code de Anthropic en GitHub que podría haber permitido a atacantes exponer credenciales almacenadas en tuberías de desarrollo de software al manipular el agente de IA a través de contenido malicioso de GitHub.
En una publicación de blog el viernes, Microsoft advirtió que los agentes de codificación de IA que se ejecutan dentro de los flujos de trabajo de CI/CD pueden crear nuevos riesgos de seguridad porque esos entornos a menudo tienen acceso a claves de API, credenciales en la nube y otra información sensible.
“Comenzamos esta investigación después de observar intentos de inyección de prompts en repositorios públicos utilizando flujos de trabajo de GitHub asistidos por IA de múltiples proveedores, donde el contenido de las incidencias o [solicitudes de extracción] controladas por el atacante es procesado por el agente de IA y podría influir en el uso de sus herramientas”, escribió Microsoft.
En GitHub, una solicitud de extracción (pull request) permite a los desarrolladores proponer cambios a un repositorio de código y que esos cambios sean revisados antes de ser aprobados y fusionados.
El informe llega cuando los ataques de inyección de prompts han surgido como una de las mayores amenazas de seguridad que enfrentan los agentes de IA. En un ataque de inyección de prompts, un atacante oculta instrucciones en contenido como correos electrónicos, documentos, sitios web o comentarios de código, haciendo que un sistema de IA siga esas instrucciones en lugar de las del usuario.
Lanzado en octubre, Claude Code es el agente de codificación de IA de Anthropic para tareas de desarrollo de software. La herramienta fue objeto de escrutinio en marzo después de que Anthropic filtrara accidentalmente más de 500,000 líneas de su código fuente, exponiendo detalles de su arquitectura interna y provocando un análisis generalizado por parte de investigadores y desarrolladores.
Según Microsoft, los atacantes podrían usar ataques de inyección de prompts ocultos en incidencias de GitHub, solicitudes de extracción (pull requests) o comentarios para manipular a Claude Code y hacer que acceda a archivos que contienen credenciales sensibles.
Para probar la vulnerabilidad, Microsoft creó un flujo de trabajo de GitHub y disfrazó instrucciones maliciosas detrás de contenido alojado en un dominio que controlaba, lo que permitió a los investigadores eludir las protecciones de seguridad de Claude. El ataque de inyección de prompts engañó a Claude para que leyera credenciales sensibles y las alterara para evadir tanto las salvaguardias de Claude como las herramientas de escaneo de secretos de GitHub. Microsoft dijo que un atacante podría luego reconstruir la credencial y exfiltrarla a través de comentarios de incidencias, registros de flujo de trabajo, solicitudes web o comandos de shell.
“Para eludir los mecanismos de seguridad de rechazo de Sonnet, ocultamos la carga útil del shell detrás de una respuesta de nuestro dominio controlado”, dijo la firma. “También habilitamos que el flujo de trabajo fuera activado por usuarios sin permisos de 'escritura' para asegurar que las mitigaciones de limpieza de variables de entorno de Anthropic estuvieran activas durante nuestras pruebas.”
Anthropic corrigió la falla el 5 de mayo con la versión 2.1.128 de Claude Code después de que Microsoft revelara la vulnerabilidad a través de HackerOne el 29 de abril.
A pesar de múltiples capas de controles de seguridad incorporados, Microsoft descubrió que un atacante decidido podría manipular un agente de IA para exponer información sensible.
“Estamos entrando en una era en la que el lenguaje natural es código ejecutable, y las entradas no confiables como las incidencias de GitHub deben tratarse como hostiles por defecto”, dijo. “Un solo comentario cuidadosamente elaborado, combinado con un límite de confianza mal interpretado, es todo lo que se necesita para obtener credenciales de producción.”