اوپنزیپلین نواقص روششناختی معیار امنیت بلاکچین EVMbench شرکت OpenAI را برجسته میکند

OpenZeppelin آلودگی دادهها و آسیبپذیریهای با شدت بالا و نامعتبر را در EVMbench شرکت OpenAI کشف میکند و قابلیت اطمینان معیارهای هوش مصنوعی برای امنیت بلاکچین را زیر سؤال میبرد.

بحث و جدلی در مورد استفاده از هوش مصنوعی و امنیت بلاکچین در حال شکلگیری است. OpenZeppelin به بررسی معیارهای جدید هوش مصنوعی که توسط OpenAI در مورد قراردادهای هوشمند (EVMbench) منتشر شده، پرداخته و مسائلی را در متدولوژی و همچنین آلودگی دادههای مورد آزمایش یافته است.
این معیار که برای ارزیابی میزان توانایی مدلهای هوش مصنوعی در شناسایی، رفع و بهرهبرداری از آسیبپذیریها در قراردادهای هوشمند ماشین مجازی اتریوم طراحی شده است، نتیجه همکاری بین شرکت سرمایهگذاری کریپتو Paradigm و محققانی از دانشگاه استنفورد است.
OpenZeppelin حمایت خود را از این پیشنهاد اعلام کرد، اما همان دقت و وسواسی را که برای اندازهگیری سایر پروتکلهای بزرگ دیفای به کار میبرد، در مورد این پیشنهاد معیار نیز اعمال کرد. این امر منجر به بررسی معیاری شد که سوالات مهم متعددی را در مورد چگونگی اندازهگیری عملکرد هوش مصنوعی مرتبط با امنیت بلاکچین در آینده مطرح کرد.
EVMbench برای انجام چه کاری طراحی شده است؟
EVMbench به عنوان معیاری برای آزمایش مدلهای هوش مصنوعی در برابر آسیبپذیریهای واقعی در قراردادهای هوشمند تحت کدهای Solidity و EVM عمل میکند که به شما امکان میدهد:
- شناسایی آسیبپذیریهای امنیتی در کد Solidity،
- طبقهبندی شدت آن آسیبپذیریهای امنیتی،
- توصیه وصلههای امنیتی برای امنیت ضعیف شده،
- نشان دادن چگونگی بهرهبرداری یک مهاجم از یک ضعف.
هدف این معیار، ارائه یک اندازهگیری عینی به توسعهدهندگان است که نشان میدهد کد آنها تا چه حد به طور موثر یک راهحل مبتنی بر بلاکچین را ایمن خواهد کرد، به خصوص زمانی که سهام مالی بالا است و بهرهبرداری از بلاکچین میتواند منجر به ضررهای جبرانناپذیری شود.
با افزایش استفاده از هوش مصنوعی در فرآیندهای حسابرسی، این معیارها میتوانند بر انتخاب ابزارهای هوش مصنوعی توسط تیمهای توسعه برای امنیت حسابرسی/پروتکل تأثیر بگذارند.
با این حال؛ مقایسه هوش مصنوعی در محیطهای پرخطر/بدون برد، نیازمند درجه بالایی از نظم روششناختی در معیارسنجی هوش مصنوعی است؛

تصویر از نویسنده
فرآیند بازبینی OpenZeppelin
به گفته نماینده OpenZeppelin، این شرکت تصمیم گرفته است تا EVMbench را با استفاده از همان رویههای کلی که برای حسابرسی پروتکلهای بزرگ مالی غیرمتمرکز به کار میرود، بازبینی کند.
OpenZeppelin حسابرسی بسیاری از پروژهها از جمله Aave، Lido و Uniswap را که همگی میلیاردها دلار تراکنش را پردازش میکنند، تکمیل کرده است.
OpenZeppelin اظهار داشت که هدفش به چالش کشیدن این ابتکار نبوده است؛ بلکه هدف آن اطمینان از این بود که ادعاهای امنیتی مبتنی بر هوش مصنوعی توسط یک متدولوژی آماری دقیق و مستدل پشتیبانی میشوند.
این شرکت به طور عمومی و در بحثهای خود با عموم مردم اظهار داشت که معیارهای هوش مصنوعی که بر تصمیمات مربوط به امنیت پروژههای بلاکچین تأثیر میگذارند، باید از یک آزمایش خصمانه عبور کنند.
مسئله اصلی 1: آلودگی دادههای آموزشی
یافتههای تحقیقات من نشان میدهد که آلودگی دادههای آموزشی خطرات قابل توجهی را به همراه دارد. آلودگی زمانی رخ میدهد که مجموعه داده معیار مورد استفاده برای ارزیابی عملکرد الگوریتمهای یادگیری ماشین (ML) به طور جزئی یا کامل با دادههای مورد استفاده برای آموزش الگوریتمها همپوشانی داشته باشد. این همپوشانی منجر به افزایش کاذب معیارهای عملکردی میشود.
در زمینه EVMbench، نگرانیهایی در مورد آلودگی وجود دارد.
اگر هر یک از آسیبپذیریهای موجود در مجموعه دادههای معیارسنجی در مخازن عمومی در دسترس (مانند GitHub) یا در سایر مطالعات منتشر شده وجود داشته باشد، این احتمال وجود دارد که الگوریتمهای بسیار پیشرفته یادگیری ماشین، آن الگوها را حفظ کرده باشند (یعنی یاد گرفته باشند که ارتباط بین دادههای آموزشی و عملکردهای مربوطه را به خاطر بسپارند).
بنابراین، اعتبار معیارهای EVMbench را به عنوان یک معیار معتبر برای توانایی استدلال یک الگوریتم تضعیف میکند.
استدلال در دنیای امنیت بلاکچین حیاتی است، جایی که یک محیط خلاقیت خصمانه وجود دارد و اتکا به تفسیر دادههای حفظ شده (یعنی یادآوری) بسیار دشوارتر از نشان دادن کاربردهای سازگار استدلال تحلیلی (یعنی منطق) است.
مسئله اصلی 2: خطاهای طبقهبندی آسیبپذیری
OpenZeppelin در دومین نگرانی اصلی خود در مورد طبقهبندی آسیبپذیری اظهار داشته است که به نظر میرسد تعداد زیادی از مسائل با شدت بسیار بالا طبقهبندی شدهاند که به صورت عملی قابل بهرهبرداری نیستند. آنها به ما اشاره کردند که حداقل چهار مورد از این طبقهبندیهای با شدت بالا در واقع نامعتبر هستند، زیرا تحت شرایط واقعی بلاکچین، این آسیبپذیریها عملاً قابل بهرهبرداری نیستند.
اهمیت سیستم طبقهبندی شدت در این است که:
• طبقهبندی شدت کمک میکند تا منابع بر روی رفع مهمترین مسائل در اولویت اول متمرکز شوند.
• طبقهبندی شدت بر امتیازات مدل تأثیر میگذارد.
• درک عمومی از قابلیت هوش مصنوعی توسط طبقهبندی شدت شکل خواهد گرفت.
اگر یک مدل به درستی یک مسئله غیرقابل بهرهبرداری را کماهمیت جلوه دهد، اما آن مسئله دارای شدت بالایی طبقهبندی شده باشد، آن مدل ممکن است به طور ناعادلانه جریمه شود. از طرف دیگر، یک مدل ممکن است بتواند به سادگی تعداد زیادی از مسائل را بدون اینکه قادر به تعیین قابل بهرهبرداری بودن یا نبودن آنها باشد، پرچمگذاری کند و امتیاز بالاتری کسب کند.
این تناقضات همچنین اعتبار معیارهای سنجش را تضعیف میکند.

تصویر از نویسنده
چرا یکپارچگی معیار برای امنیت بلاکچین اهمیت دارد
عاملی حیاتی در شکلدهی به پذیرش هوش مصنوعی
یک معیار که میزان اطمینان از توانایی مؤثر یک مدل هوش مصنوعی در شناسایی و بهرهبرداری از آسیبپذیریها را فراهم کند، چیزی است که میتواند تیمهای توسعه را به استفاده از آن در خطوط لوله حسابرسی تولیدی خود سوق دهد.
استفاده از ابزارهای حسابرسی معیوب در امور مالی غیرمتمرکز (DeFi) میتواند عواقب شدیدی داشته باشد که شامل موارد زیر است:
- از دست دادن سرمایه کاربران
- ورشکستگی پروتکل
- اختلال در حاکمیت
- آسیب به اعتبار
قراردادهای هوشمند بلاکچین معمولاً استقرار یافته و غیرقابل تغییر هستند. آسیبپذیریهای امنیتی به راحتی بدون هماهنگی حاکمیتی یا مهاجرت قابل رفع نیستند. این امر نیاز به طبقهبندی دقیق آسیبپذیریها و معیارهای ارزیابی صحیح را افزایش میدهد. یک معیار نامعتبر میتواند محیطی از اعتماد نابجا به محصولات امنیتی مبتنی بر هوش مصنوعی ایجاد کند.
نقش رو به رشد هوش مصنوعی در حسابرسی قراردادهای هوشمند
قراردادهای هوشمند اکنون معمولاً با استفاده از هوش مصنوعی (AI) مورد بازبینی قرار میگیرند. استفاده از هوش مصنوعی در این زمینه را میتوان به شرح زیر خلاصه کرد:
- برای پیشاسکن کدهای برنامهنویسی و یافتن آسیبپذیریهای جدید شناسایی شده،
- کمک به حسابرسان انسانی در تجزیه و تحلیل کد برای خطاهای عملکردی یا منطقی،
- ارائه توصیههایی برای وصلههای کد در صورت یافتن خطاها، و
- ایجاد موارد آزمایشی که بهرهبرداری از آسیبپذیری را شبیهسازی میکنند.
استفاده مؤثر از هوش مصنوعی کار حسابرسان انسانی را تکمیل میکند، اما جایگزین آن نخواهد شد. به طور فزایندهای، شاهد استفاده از هوش مصنوعی به این شیوه هستیم. EVMbench تلاشی است برای ارزیابی اینکه هوش مصنوعی چقدر خوب در برابر معیارهای تعیینشده در این زیردامنه عمل میکند. OpenZeppelin نقدی بر این روش ارزیابی ارائه میدهد و به نیاز به یک فرآیند ارزیابی امن و با طراحی کاربرپسند برای اهداف معیارسنجی اشاره میکند.
در نهایت، برای اینکه فرآیندهای ارزیابی در برابر دشمنانی که فعالانه به دنبال نقاط ضعف هستند، مؤثر باشند، باید به گونهای طراحی شوند که قابل 'دستکاری' نباشند.
پیامدهای گستردهتر برای ارزیابی هوش مصنوعی در کریپتو
جنجال پیرامون EVMbench چالشی مداوم را در ارزیابی هوش مصنوعی برجسته میکند؛ تمایز قائل شدن بین استدلال واقعی و تشخیص الگو.
همانطور که قابلیتهای مدلهای زبان بزرگ به گسترش خود ادامه میدهند، معیارهای مورد استفاده برای ارزیابی قابلیتهای آنها نیز معمولاً بهبود مییابند. با این حال، بدون جداسازی و اعتبار سنجی صحیح مجموعه دادههای زیربنایی یک معیار، چنین بهبودهایی در قابلیت ممکن است به دلیل قرار گرفتن در معرض دادههای آموزشی نسبت داده شود تا اینکه ناشی از عمق تحلیلی واقعی باشد.
این تمایز به ویژه در ارزیابی امنیت قراردادهای هوشمند مهم است، زیرا این نوع بهرهبرداریها اغلب شامل تعاملات پیچیده، محدودیتهای متنی و موارد خاص اقتصادی هستند. برای اینکه یک معیار قابل اعتماد باشد، باید:
• امکانپذیری برآورده کردن الزامات از طریق قابلیت بهرهبرداری عملی
• ملاحظات اقتصادی در مورد امکانپذیری
• محدودیتهای اجرایی مرتبط با تراکنشهای زنجیرهای
• سطوح حمله که در دنیای فیزیکی وجود دارند
اگر سطوح شدت یا مفروضات مربوط به آسیبپذیریهای مورد استفاده در معیارسنجی نادرست باشند، آن معیارها میتوانند توسعهدهندگان را به بیراهه بکشانند. اظهارات OpenZeppelin نشان میدهد که صنعت امنیت کریپتو نیز همان انتظاراتی را از معیارهای مبتنی بر هوش مصنوعی دارد که در فرآیند حسابرسی پروتکل انتظار میرود.
یک تنش سازنده بین هوش مصنوعی و کارشناسان امنیتی
شایان ذکر است که OpenZeppelin پیش از انتشار انتقادات خود، از این ابتکار حمایت کرده بود. این نشان میدهد که بحث نه علیه استفاده از هوش مصنوعی برای معیارسنجی، بلکه برای تقویت فرآیند معیارسنجی هوش مصنوعی است.
رابطه متقابل بین جامعه حسابرسی امن بلاکچین و جامعه تحقیقات هوش مصنوعی یک تنش سازنده است که موارد زیر را ایجاد خواهد کرد:
همکاری برای توسعه تعاریف، معیارها و استانداردها برای مجموعه دادهها به کاهش احتمال اعتماد بیش از حد به سیستمهای خودکار کمک خواهد کرد و همچنین نوآوری را تشویق میکند، زیرا ابزارهای مبتنی بر هوش مصنوعی همچنان در فضای توسعه وب 3 محبوبیت پیدا میکنند.
با افزایش روزافزون محبوبیت ابزارهای هوش مصنوعی در جامعه توسعهدهندگان وب 3، ایجاد یک فرآیند شفاف برای اعتبارسنجی استفاده از آنها اهمیت فزایندهای یافته است.
نتیجهگیری
نتایج EVMbench از OpenZeppelin نشان میدهد که ارزیابی کیفیت هوش مصنوعی مورد استفاده برای سنجش امنیت در فضای بلاکچین چقدر چالشبرانگیز است. کشف آلودگی احتمالی دادههای آموزشی که میتواند بر میزان توانایی هوش مصنوعی در شناسایی آسیبپذیریها در قراردادها تأثیر بگذارد، گفتگوی بسیار مهمی را حول محور یکپارچگی معیارهای مورد استفاده در این صنعت ایجاد کرده است. این صنعت صدها میلیارد دلار ارزش را در زنجیره مدیریت میکند، بنابراین استفاده از روشهای صحیح هنگام انجام هر نوع تحلیل حیاتی است.
برای اینکه هوش مصنوعی به یک عامل قابل اعتماد در حسابرسی قراردادهای هوشمند تبدیل شود، هر چارچوبی که برای ارزیابی هوش مصنوعی استفاده میشود، نیز باید تحت نوعی ارزیابی خصمانه قرار گیرد که پروتکلهای زیربنایی که هوش مصنوعی به ایجاد آنها کمک خواهد کرد، تحت آن قرار میگیرند. انتظار میرود همگرایی هوش مصنوعی و بلاکچین کاراییهای قابل توجهی را به ارمغان آورد، اما همانطور که این مطالعه موردی نشان داده است، نوآوری باید تحت استانداردهای دقیق قرار گیرد تا این نتیجه محقق شود.
منابع
پست OpenZeppelin در X در مورد بازبینی EVMbench
اعلامیه راهاندازی EVMbench توسط OpenAI و Paradigm
مستندات روششناسی حسابرسی امنیتی OpenZeppelin
مستندات بهترین روشهای امنیتی قرارداد هوشمند اتریوم
تحقیق آکادمیک در مورد آلودگی دادههای معیار هوش مصنوعی و سوگیری ارزیابی
آخرین مقالات





