
Onderzoekers van Microsoft hebben een nu gepatchte kwetsbaarheid in Anthropic's Claude Code GitHub Action openbaar gemaakt. Deze kwetsbaarheid had aanvallers in staat kunnen stellen om referenties die zijn opgeslagen in softwareontwikkelingspijplijnen bloot te leggen door de AI-agent te manipuleren via kwaadaardige GitHub-inhoud.
In een blogpost op vrijdag waarschuwde Microsoft dat AI-coding-agents die draaien binnen CI/CD-workflows nieuwe beveiligingsrisico's kunnen creëren, omdat die omgevingen vaak toegang hebben tot API-sleutels, cloudreferenties en andere gevoelige informatie.
“We zijn dit onderzoek begonnen na het waarnemen van promptinjectiepogingen in openbare repositories die AI-ondersteunde GitHub-workflows van meerdere leveranciers gebruikten, waarbij door een aanvaller gecontroleerde issues of [pull requests] door de AI-agent worden verwerkt en het gebruik van de tool kunnen beïnvloeden,” schreef Microsoft.
Op GitHub stelt een pull request ontwikkelaars in staat om wijzigingen voor te stellen aan een code-repository en deze wijzigingen te laten beoordelen voordat ze worden goedgekeurd en samengevoegd.
Het rapport verschijnt nu promptinjectieaanvallen naar voren zijn gekomen als een van de grootste beveiligingsbedreigingen voor AI-agents. Bij een promptinjectieaanval verbergt een aanvaller instructies in inhoud zoals e-mails, documenten, websites of code-opmerkingen, waardoor een AI-systeem die instructies volgt in plaats van die van de gebruiker.
Claude Code, gelanceerd in oktober, is Anthropic's AI-coding-agent voor softwareontwikkelingstaken. Het hulpmiddel kwam in maart onder de loep te liggen nadat Anthropic per ongeluk meer dan 500.000 regels van zijn broncode lekte, waardoor details van de interne architectuur werden blootgelegd en dit leidde tot wijdverbreide analyse door onderzoekers en ontwikkelaars.
Volgens Microsoft konden aanvallers promptinjectieaanvallen, verborgen in GitHub-issues, pull requests of opmerkingen, gebruiken om Claude Code te manipuleren zodat het toegang kreeg tot bestanden die gevoelige referenties bevatten.
Om de kwetsbaarheid te testen, creëerde Microsoft een GitHub-workflow en vermomde kwaadaardige instructies achter inhoud die werd gehost op een door hen beheerd domein, waardoor de onderzoekers de veiligheidsbescherming van Claude konden omzeilen. De promptinjectieaanval misleidde Claude om gevoelige referenties te lezen en deze aan te passen om zowel Claude's waarborgen als GitHub's secret-scanning-tools te omzeilen. Microsoft zei dat een aanvaller de referenties vervolgens kon reconstrueren en exfiltreren via issue-opmerkingen, workflow-logs, webverzoeken of shell-commando's.
“Om Sonnet's weigerings-veiligheidsmechanismen te omzeilen, verhulden we de shell-payload achter een reactie van ons gecontroleerde domein,” aldus het bedrijf. “We schakelden de workflow ook in om te worden geactiveerd door gebruikers zonder 'schrijfrechten' om ervoor te zorgen dat Anthropic's mitigaties voor het opschonen van omgevingsvariabelen actief waren tijdens onze tests.”
Anthropic heeft het lek op 5 mei gepatcht met Claude Code versie 2.1.128 nadat Microsoft de kwetsbaarheid op 29 april via HackerOne had gemeld.
Ondanks meerdere lagen van ingebouwde beveiligingscontroles, ontdekte Microsoft dat een vastberaden aanvaller een AI-agent potentieel kon manipuleren om gevoelige informatie bloot te leggen.
“We betreden een tijdperk waarin natuurlijke taal uitvoerbare code is, en onbetrouwbare inputs zoals GitHub-issues standaard als vijandig moeten worden behandeld,” stelde het bedrijf. “Een enkele, zorgvuldig opgestelde opmerking in combinatie met een verkeerd begrepen vertrouwensgrens is alles wat nodig is om weg te komen met productie-referenties.”