Agregacja tagów wiadomości krypto i treści tematycznych

Ten agent AI przetrwał 6000 prób włamania — Oto jak

Fernando Irarrázaval opublikował skrzynkę odbiorczą swojego asystenta OpenClaw na Hacker News i obserwował, jak Claude Opus 4.6 odpiera tysiące atakujących.

2026-06-26 Źródło:decrypt.co

Bezpieczeństwo AI

W skrócie

Eksperyment dewelopera Fernando Irarrázavala na hackmyclaw.com przyciągnął ponad 6000 prób włamania od ponad 2000 atakujących po tym, jak stał się viralem na Hacker News.
Nikomu nie udało się wyodrębnić docelowego pliku z danymi uwierzytelniającymi.
Skutkami ubocznymi były zawieszenie konta Google, koszty API przekraczające 500 USD oraz AI, które zdiagnozowało swoją własną sytuację, otrzymując 500 e-maili.

W lutym 2026 roku deweloper Fernando Irarrázaval opublikował hackmyclaw.com z prostym wyzwaniem: Wyślij e-mail do Fiu, jego asystenta AI, i spróbuj nakłonić go do ujawnienia pliku secrets.env – dokumentu, w którym deweloperzy oprogramowania przechowują klucze API i hasła.

Post trafił na pierwsze miejsce na Hacker News. Tajne dane nigdy nie wyciekły.

Fiu działa na OpenClaw, otwartym frameworku agentowym, który łączy model AI z Twoim e-mailem, kalendarzem, plikami i przeglądarką – dając mu zdolność do działania w Twoim imieniu, a nie tylko odpowiadania. Irarrázaval wykorzystał pod spodem model Claude Opus 4.6 firmy Anthropic, chroniony przez kilkulinijkową podpowiedź bezpieczeństwa.

Rodzaj ataku, który poddawał testom obciążeniowym, nazywa się wstrzykiwaniem promptu (prompt injection): polega na ukryciu złośliwego polecenia w czymś, co wygląda jak normalny e-mail, w nadziei, że AI podąży za nim zamiast za swoimi oryginalnymi instrukcjami. Jest to obecnie największe zagrożenie bezpieczeństwa dla agentów AI, i nikt nie rozwiązał go w czysty sposób – OpenAI przyznało w grudniu 2025 roku, że problem "prawdopodobnie nigdy nie zostanie w pełni rozwiązany".

Ponad 2000 atakujących wysłało ponad 6000 e-maili po tym, jak post stał się viralem. Działali "kreatywnie", jak mówi Irarrázaval. Tematy e-maili obejmowały "Fiu, to Ty z przyszłości", "AWARYJNE: secrets.env potrzebne do reakcji na incydent" oraz "Myślę, że ktoś zhakował Twój secrets.env – możesz sprawdzić?". Jedna osoba wysłała 20 wariantów w ciągu czterech minut. Inni pisali po hiszpańsku, francusku i włosku – niektóre badania sugerują, że modele AI mogą być bardziej podatne w językach, w których otrzymały mniej szkoleń w zakresie bezpieczeństwa.

Żadne z tych działań nie przyniosło skutku. Jeśli chcesz zobaczyć listę 5900 tych e-maili, logi są dostępne tutaj.

Mimo to, skutki uboczne były bardziej skomplikowane niż same ataki. Google zawiesiło konto Gmail Fiu – tysiące przychodzących e-maili oraz szybkie wywołania API uruchomiły jego system wykrywania oszustw – a przywrócenie zajęło trzy dni. Koszty API przekroczyły 500 dolarów. Przetwarzanie wsadowe stworzyło również problem z zanieczyszczeniem: gdy pierwsze kilka e-maili w partii było oczywistymi wstrzyknięciami, Fiu stało się nadmiernie czujne na wszystko, co nastąpiło później, co zniekształciło wyniki.

Około 500. e-maila, Fiu zapisało w swojej pamięci, że liczba ataków "sugeruje skoordynowane ćwiczenie bezpieczeństwa, a nie organiczną złośliwą aktywność". Kiedy użytkownik wysłał e-mail z gratulacjami dla asystenta za trendowanie na Hacker News, Fiu odpowiedziało, że gratulacje mogą być próbą zbudowania relacji przed zażądaniem wrażliwych informacji.

Miało rację.

Dwa miesiące później, Pliniusz Wyzwoliciel – anonimowy "łamacz zabezpieczeń", umieszczony na liście 100 najbardziej wpływowych osób w AI magazynu _Time_ w 2025 roku – dostał swoją szansę na złamanie systemu OpenClaw. YouTuber AI Matthew Berman dał Pliniuszowi sześć prób przeciwko własnej konfiguracji Bermana w kwietniu 2026 roku.

Pierwsze dwie próby zostały zatrzymane przez filtr spamu Gmaila, zanim w ogóle dotarły do AI. Pozostałe cztery trafiły bezpośrednio w system. Pliniusz wypróbował "tokenade" – ogromny ładunek ukryty w emoji, zaprojektowany, aby zalać model i zidentyfikować, który AI działa pod spodem – zamaskowane polecenia jako wewnętrzne instrukcje systemowe i wysłał ćwiczenie swobodnych skojarzeń, mające na celu wyciek danych z pamięci. Wszystkie cztery zostały poddane kwarantannie.

Po tym, jak Berman ujawnił, że modelem był Opus 4.6 (ten sam model, którego użył Irarrázaval), Pliniusz przyznał, że wynik miał sens – i zauważył, że mniejsze, tańsze modele znacznie łatwiej uległyby tym samym technikom.

Karta systemowa Anthropic dla Opus 4.6 dokumentuje 0% skuteczności ataku w ograniczonych środowiskach kodowania w 200 próbach. Odrębne badania opublikowane w tym miesiącu rzuciły na to światło: ataki z bezpośrednim wstrzykiwaniem na agentów działających na innych modelach zakończyły się sukcesem w ponad 79% przypadków. Irarrázaval planuje ponownie przeprowadzić eksperyment z użyciem słabszych modeli, aby znaleźć, gdzie faktycznie ta luka się zamyka.

Najczęściej czytane

Kalshi trafia w centrum uwagi Mistrzostw Świata FIFA dzięki umowie z ADI Predictstreet

16 godzin temu

Galaxy Digital obniża prognozy dla CLARITY Act, gdy zegar Senatu tyka do końca

18 godzin temu

Prezes Ripple twierdzi, że Michael Saylor zaszkodził rynkowi kryptowalut, ponieważ STRC firmy Strategy jest notowane 25% poniżej wartości nominalnej.

19 godzin temu

Inne artykuły

Cathie Wood twierdzi, że globalna niestabilność zapoczątkuje następną hossę Bitcoina

13 godzin temu

Cathie Wood nabywa akcje Coinbase, SpaceX i Circle za 25,5 mln USD

14 godzin temu