تجمیع برچسب اخبار کریپتو و اخبار اختصاصی

این عامل هوش مصنوعی ۶۰۰۰ حمله سایبری را دفع کرد—روش کار اینجاست

فرناندو ایرازابال صندوق ورودی دستیار OpenClaw خود را در هکر نیوز منتشر کرد و مشاهده کرد که Claude Opus 4.6 در برابر هزاران مهاجم مقاومت کرد.

2026-06-26 منبع:decrypt.co

امنیت هوش مصنوعی

به طور خلاصه

آزمایش توسعه‌دهنده فرناندو ایرارازابال در hackmyclaw.com پس از وایرال شدن در Hacker News، بیش از 6000 تلاش برای نفوذ از سوی بیش از 2000 مهاجم را به خود جلب کرد.
هیچ‌کس نتوانست فایل اعتبارسنجی هدف را استخراج کند.
عوارض جانبی شامل تعلیق حساب گوگل، هزینه‌های API بیش از 500 دلار، و یک هوش مصنوعی بود که وضعیت خود را با ایمیل 500 تشخیص داده بود.

در فوریه 2026، توسعه‌دهنده فرناندو ایرارازابال وب‌سایت hackmyclaw.com را با یک چالش ساده منتشر کرد: به دستیار هوش مصنوعی خود، فیو (Fiu)، ایمیل بفرستید و آن را فریب دهید تا یک فایل secrets.env را لو دهد – سندی که توسعه‌دهندگان نرم‌افزار کلیدهای API و رمزهای عبور را در آن ذخیره می‌کنند.

این پست به جایگاه اول در Hacker News رسید. اما هیچ‌گاه اطلاعات محرمانه فاش نشد.

فیو بر روی OpenClaw اجرا می‌شود، یک فریم‌ورک عامل متن‌باز که یک مدل هوش مصنوعی را به ایمیل، تقویم، فایل‌ها و مرورگر شما متصل می‌کند – و به آن امکان می‌دهد نه تنها پاسخ دهد، بلکه از طرف شما اقدام کند. ایرارازابال از Claude Opus 4.6 شرکت Anthropic در زیرساخت آن استفاده کرد که تنها با چند خط دستور امنیتی محافظت می‌شد.

نوع حمله‌ای که او در حال آزمایش استرس آن بود، تزریق دستور (prompt injection) نامیده می‌شود: پنهان کردن یک دستور مخرب در داخل چیزی که یک ایمیل عادی به نظر می‌رسد، به این امید که هوش مصنوعی به جای دستورالعمل‌های اصلی خود، آن را دنبال کند. این بزرگترین تهدید امنیتی است که امروزه عوامل هوش مصنوعی با آن روبرو هستند، و هیچ‌کس راه‌حل کاملی برای آن پیدا نکرده است – OpenAI در دسامبر 2025 اعتراف کرد که این مشکل «بعید است که هرگز به طور کامل حل شود.»

بیش از 2000 مهاجم پس از وایرال شدن این پست، بیش از 6000 ایمیل ارسال کردند. همانطور که ایرارازابال می‌گوید، آن‌ها «خلاق» بودند. عناوین ایمیل‌ها شامل «فیو، این تو از آینده هستی»، «اورژانسی: secrets.env برای واکنش به حادثه مورد نیاز است» و «فکر می‌کنم کسی secrets.env شما را هک کرده است – می‌توانید بررسی کنید؟» بود. یک نفر 20 نوع مختلف را در چهار دقیقه ارسال کرد. دیگران به زبان‌های اسپانیایی، فرانسوی و ایتالیایی نوشتند – برخی تحقیقات نشان می‌دهد که مدل‌های هوش مصنوعی ممکن است در زبان‌هایی که آموزش‌های ایمنی کمتری دیده‌اند، آسیب‌پذیرتر باشند.

هیچ یک از این تلاش‌ها موفقیت‌آمیز نبود. اگر می‌خواهید لیستی از 5900 ایمیل را ببینید، گزارش‌ها در اینجا موجود است.

با این حال، عوارض جانبی پیچیده‌تر از خود حملات بودند. گوگل حساب جیمیل فیو را به حالت تعلیق درآورد – هزاران ایمیل ورودی به همراه تماس‌های سریع API تشخیص کلاهبرداری آن را فعال کرده بود – و سه روز طول کشید تا بازیابی شود. هزینه‌های API از 500 دلار فراتر رفت. پردازش دسته‌ای نیز یک مشکل آلودگی ایجاد کرد: هنگامی که چند ایمیل اول در یک دسته، تزریق‌های آشکار بودند، فیو نسبت به هر آنچه پس از آن می‌آمد، بیش از حد هوشیار شد و نتایج را منحرف کرد.

حدود ایمیل 500، فیو در حافظه خود نوشت که حجم حملات «نشان‌دهنده یک تمرین امنیتی هماهنگ است تا فعالیت مخرب ارگانیک.» هنگامی که یک کاربر برای تبریک به دستیار به دلیل ترند شدن در Hacker News ایمیل فرستاد، فیو پاسخ داد که تبریک می‌تواند تلاشی برای ایجاد رابطه قبل از درخواست اطلاعات حساس باشد.

حق با او بود.

دو ماه بعد، پلینی آزادی‌بخش (Pliny the Liberator) – جِیل‌بریکر ناشناسی که در فهرست 100 فرد تأثیرگذار در هوش مصنوعی مجله تایم برای سال 2025 قرار گرفت – شانس خود را برای شکستن یک سیستم OpenClaw امتحان کرد. متیو برمن، یوتیوبر هوش مصنوعی، در آوریل 2026 به پلینی شش تلاش در برابر تنظیمات خودش داد.

دو تلاش اول توسط فیلتر اسپم جیمیل متوقف شدند، حتی قبل از اینکه به هوش مصنوعی برسند. چهار تلاش باقی‌مانده مستقیماً به سیستم وارد شدند. پلینی یک «توکنید» (tokenade) – یک بار سنگین پنهان شده در داخل یک ایموجی، که برای پر کردن مدل و شناسایی هوش مصنوعی در حال اجرا طراحی شده بود – را امتحان کرد، دستورات را به عنوان دستورالعمل‌های داخلی سیستم پنهان کرد، و یک تمرین تداعی آزاد که برای فاش کردن داده‌های حافظه مهندسی شده بود، ارسال کرد. هر چهار مورد قرنطینه شدند.

پس از اینکه برمن فاش کرد که مدل مورد استفاده Opus 4.6 است (همان مدلی که ایرارازابال استفاده کرده بود)، پلینی اذعان کرد که نتیجه منطقی است – و اشاره کرد که مدل‌های کوچک‌تر و ارزان‌تر، بسیار راحت‌تر قربانی همین تکنیک‌ها می‌شدند.

کارت سیستم Anthropic برای Opus 4.6 نرخ موفقیت 0% حمله را در محیط‌های کدنویسی محدود در 200 تلاش مستند می‌کند. تحقیقات جداگانه منتشر شده در این ماه این موضوع را روشن کرد: حملات تزریق مستقیم علیه عامل‌های در حال اجرای مدل‌های دیگر در بیش از 79% مواقع موفق بودند. ایرارازابال قصد دارد این آزمایش را با مدل‌های ضعیف‌تر دوباره اجرا کند تا بفهمد این شکاف واقعاً در کجا بسته می‌شود.

مطالب پربازدید

کالشی از طریق معامله ADI Predictstreet به کانون توجه جام جهانی فیفا راه یافت

16 ساعت قبل

گالکسی دیجیتال شانس تصویب قانون CLARITY را با نزدیک شدن مهلت سنا کاهش می‌دهد

18 ساعت قبل

سناتورهای دوحزبی خواستار تحقیق CFTC درباره پلی‌مارکت پس از گزارش شرط‌بندی‌های جعلی شدند

23 ساعت قبل

سایر مقالات

کتی وود می‌گوید بی‌ثباتی جهانی جرقه جهش بعدی بیت‌کوین را خواهد زد

13 ساعت قبل

کتی وود ۲۵.۵ میلیون دلار سهام کوین‌بیس، اسپیس‌ایکس و سیرکل را خریداری کرد

14 ساعت قبل