اوپن‌زیپلین نواقص روش‌شناختی معیار امنیت بلاک‌چین EVMbench شرکت OpenAI را برجسته می‌کند

بحث و جدلی در مورد استفاده از هوش مصنوعی و امنیت بلاکچین در حال شکل‌گیری است. OpenZeppelin به بررسی معیارهای جدید هوش مصنوعی که توسط OpenAI در مورد قراردادهای هوشمند (EVMbench) منتشر شده، پرداخته و مسائلی را در متدولوژی و همچنین آلودگی داده‌های مورد آزمایش یافته است.

این معیار که برای ارزیابی میزان توانایی مدل‌های هوش مصنوعی در شناسایی، رفع و بهره‌برداری از آسیب‌پذیری‌ها در قراردادهای هوشمند ماشین مجازی اتریوم طراحی شده است، نتیجه همکاری بین شرکت سرمایه‌گذاری کریپتو Paradigm و محققانی از دانشگاه استنفورد است.

OpenZeppelin حمایت خود را از این پیشنهاد اعلام کرد، اما همان دقت و وسواسی را که برای اندازه‌گیری سایر پروتکل‌های بزرگ دیفای به کار می‌برد، در مورد این پیشنهاد معیار نیز اعمال کرد. این امر منجر به بررسی معیاری شد که سوالات مهم متعددی را در مورد چگونگی اندازه‌گیری عملکرد هوش مصنوعی مرتبط با امنیت بلاکچین در آینده مطرح کرد.

EVMbench برای انجام چه کاری طراحی شده است؟

EVMbench به عنوان معیاری برای آزمایش مدل‌های هوش مصنوعی در برابر آسیب‌پذیری‌های واقعی در قراردادهای هوشمند تحت کدهای Solidity و EVM عمل می‌کند که به شما امکان می‌دهد:

شناسایی آسیب‌پذیری‌های امنیتی در کد Solidity،
طبقه‌بندی شدت آن آسیب‌پذیری‌های امنیتی،
توصیه وصله‌های امنیتی برای امنیت ضعیف شده،
نشان دادن چگونگی بهره‌برداری یک مهاجم از یک ضعف.

هدف این معیار، ارائه یک اندازه‌گیری عینی به توسعه‌دهندگان است که نشان می‌دهد کد آنها تا چه حد به طور موثر یک راه‌حل مبتنی بر بلاکچین را ایمن خواهد کرد، به خصوص زمانی که سهام مالی بالا است و بهره‌برداری از بلاکچین می‌تواند منجر به ضررهای جبران‌ناپذیری شود.

با افزایش استفاده از هوش مصنوعی در فرآیندهای حسابرسی، این معیارها می‌توانند بر انتخاب ابزارهای هوش مصنوعی توسط تیم‌های توسعه برای امنیت حسابرسی/پروتکل تأثیر بگذارند.

با این حال؛ مقایسه هوش مصنوعی در محیط‌های پرخطر/بدون برد، نیازمند درجه بالایی از نظم روش‌شناختی در معیارسنجی هوش مصنوعی است؛

تصویر از نویسنده

فرآیند بازبینی OpenZeppelin

به گفته نماینده OpenZeppelin، این شرکت تصمیم گرفته است تا EVMbench را با استفاده از همان رویه‌های کلی که برای حسابرسی پروتکل‌های بزرگ مالی غیرمتمرکز به کار می‌رود، بازبینی کند.

OpenZeppelin حسابرسی بسیاری از پروژه‌ها از جمله Aave، Lido و Uniswap را که همگی میلیاردها دلار تراکنش را پردازش می‌کنند، تکمیل کرده است.

OpenZeppelin اظهار داشت که هدفش به چالش کشیدن این ابتکار نبوده است؛ بلکه هدف آن اطمینان از این بود که ادعاهای امنیتی مبتنی بر هوش مصنوعی توسط یک متدولوژی آماری دقیق و مستدل پشتیبانی می‌شوند.

این شرکت به طور عمومی و در بحث‌های خود با عموم مردم اظهار داشت که معیارهای هوش مصنوعی که بر تصمیمات مربوط به امنیت پروژه‌های بلاکچین تأثیر می‌گذارند، باید از یک آزمایش خصمانه عبور کنند.

مسئله اصلی 1: آلودگی داده‌های آموزشی

یافته‌های تحقیقات من نشان می‌دهد که آلودگی داده‌های آموزشی خطرات قابل توجهی را به همراه دارد. آلودگی زمانی رخ می‌دهد که مجموعه داده معیار مورد استفاده برای ارزیابی عملکرد الگوریتم‌های یادگیری ماشین (ML) به طور جزئی یا کامل با داده‌های مورد استفاده برای آموزش الگوریتم‌ها همپوشانی داشته باشد. این همپوشانی منجر به افزایش کاذب معیارهای عملکردی می‌شود.

در زمینه EVMbench، نگرانی‌هایی در مورد آلودگی وجود دارد.

اگر هر یک از آسیب‌پذیری‌های موجود در مجموعه داده‌های معیارسنجی در مخازن عمومی در دسترس (مانند GitHub) یا در سایر مطالعات منتشر شده وجود داشته باشد، این احتمال وجود دارد که الگوریتم‌های بسیار پیشرفته یادگیری ماشین، آن الگوها را حفظ کرده باشند (یعنی یاد گرفته باشند که ارتباط بین داده‌های آموزشی و عملکردهای مربوطه را به خاطر بسپارند).

بنابراین، اعتبار معیارهای EVMbench را به عنوان یک معیار معتبر برای توانایی استدلال یک الگوریتم تضعیف می‌کند.

استدلال در دنیای امنیت بلاکچین حیاتی است، جایی که یک محیط خلاقیت خصمانه وجود دارد و اتکا به تفسیر داده‌های حفظ شده (یعنی یادآوری) بسیار دشوارتر از نشان دادن کاربردهای سازگار استدلال تحلیلی (یعنی منطق) است.

مسئله اصلی 2: خطاهای طبقه‌بندی آسیب‌پذیری

OpenZeppelin در دومین نگرانی اصلی خود در مورد طبقه‌بندی آسیب‌پذیری اظهار داشته است که به نظر می‌رسد تعداد زیادی از مسائل با شدت بسیار بالا طبقه‌بندی شده‌اند که به صورت عملی قابل بهره‌برداری نیستند. آنها به ما اشاره کردند که حداقل چهار مورد از این طبقه‌بندی‌های با شدت بالا در واقع نامعتبر هستند، زیرا تحت شرایط واقعی بلاکچین، این آسیب‌پذیری‌ها عملاً قابل بهره‌برداری نیستند.

اهمیت سیستم طبقه‌بندی شدت در این است که:

• طبقه‌بندی شدت کمک می‌کند تا منابع بر روی رفع مهم‌ترین مسائل در اولویت اول متمرکز شوند.

• طبقه‌بندی شدت بر امتیازات مدل تأثیر می‌گذارد.

• درک عمومی از قابلیت هوش مصنوعی توسط طبقه‌بندی شدت شکل خواهد گرفت.

اگر یک مدل به درستی یک مسئله غیرقابل بهره‌برداری را کم‌اهمیت جلوه دهد، اما آن مسئله دارای شدت بالایی طبقه‌بندی شده باشد، آن مدل ممکن است به طور ناعادلانه جریمه شود. از طرف دیگر، یک مدل ممکن است بتواند به سادگی تعداد زیادی از مسائل را بدون اینکه قادر به تعیین قابل بهره‌برداری بودن یا نبودن آنها باشد، پرچم‌گذاری کند و امتیاز بالاتری کسب کند.

این تناقضات همچنین اعتبار معیارهای سنجش را تضعیف می‌کند.

تصویر از نویسنده

چرا یکپارچگی معیار برای امنیت بلاکچین اهمیت دارد

عاملی حیاتی در شکل‌دهی به پذیرش هوش مصنوعی

یک معیار که میزان اطمینان از توانایی مؤثر یک مدل هوش مصنوعی در شناسایی و بهره‌برداری از آسیب‌پذیری‌ها را فراهم کند، چیزی است که می‌تواند تیم‌های توسعه را به استفاده از آن در خطوط لوله حسابرسی تولیدی خود سوق دهد.

استفاده از ابزارهای حسابرسی معیوب در امور مالی غیرمتمرکز (DeFi) می‌تواند عواقب شدیدی داشته باشد که شامل موارد زیر است:

- از دست دادن سرمایه کاربران

- ورشکستگی پروتکل

- اختلال در حاکمیت

- آسیب به اعتبار

قراردادهای هوشمند بلاکچین معمولاً استقرار یافته و غیرقابل تغییر هستند. آسیب‌پذیری‌های امنیتی به راحتی بدون هماهنگی حاکمیتی یا مهاجرت قابل رفع نیستند. این امر نیاز به طبقه‌بندی دقیق آسیب‌پذیری‌ها و معیارهای ارزیابی صحیح را افزایش می‌دهد. یک معیار نامعتبر می‌تواند محیطی از اعتماد نابجا به محصولات امنیتی مبتنی بر هوش مصنوعی ایجاد کند.

نقش رو به رشد هوش مصنوعی در حسابرسی قراردادهای هوشمند

قراردادهای هوشمند اکنون معمولاً با استفاده از هوش مصنوعی (AI) مورد بازبینی قرار می‌گیرند. استفاده از هوش مصنوعی در این زمینه را می‌توان به شرح زیر خلاصه کرد:

- برای پیش‌اسکن کدهای برنامه‌نویسی و یافتن آسیب‌پذیری‌های جدید شناسایی شده،

- کمک به حسابرسان انسانی در تجزیه و تحلیل کد برای خطاهای عملکردی یا منطقی،

- ارائه توصیه‌هایی برای وصله‌های کد در صورت یافتن خطاها، و

- ایجاد موارد آزمایشی که بهره‌برداری از آسیب‌پذیری را شبیه‌سازی می‌کنند.

استفاده مؤثر از هوش مصنوعی کار حسابرسان انسانی را تکمیل می‌کند، اما جایگزین آن نخواهد شد. به طور فزاینده‌ای، شاهد استفاده از هوش مصنوعی به این شیوه هستیم. EVMbench تلاشی است برای ارزیابی اینکه هوش مصنوعی چقدر خوب در برابر معیارهای تعیین‌شده در این زیردامنه عمل می‌کند. OpenZeppelin نقدی بر این روش ارزیابی ارائه می‌دهد و به نیاز به یک فرآیند ارزیابی امن و با طراحی کاربرپسند برای اهداف معیارسنجی اشاره می‌کند.

در نهایت، برای اینکه فرآیندهای ارزیابی در برابر دشمنانی که فعالانه به دنبال نقاط ضعف هستند، مؤثر باشند، باید به گونه‌ای طراحی شوند که قابل 'دستکاری' نباشند.

پیامدهای گسترده‌تر برای ارزیابی هوش مصنوعی در کریپتو

جنجال پیرامون EVMbench چالشی مداوم را در ارزیابی هوش مصنوعی برجسته می‌کند؛ تمایز قائل شدن بین استدلال واقعی و تشخیص الگو.

همانطور که قابلیت‌های مدل‌های زبان بزرگ به گسترش خود ادامه می‌دهند، معیارهای مورد استفاده برای ارزیابی قابلیت‌های آن‌ها نیز معمولاً بهبود می‌یابند. با این حال، بدون جداسازی و اعتبار سنجی صحیح مجموعه داده‌های زیربنایی یک معیار، چنین بهبودهایی در قابلیت ممکن است به دلیل قرار گرفتن در معرض داده‌های آموزشی نسبت داده شود تا اینکه ناشی از عمق تحلیلی واقعی باشد.

این تمایز به ویژه در ارزیابی امنیت قراردادهای هوشمند مهم است، زیرا این نوع بهره‌برداری‌ها اغلب شامل تعاملات پیچیده، محدودیت‌های متنی و موارد خاص اقتصادی هستند. برای اینکه یک معیار قابل اعتماد باشد، باید:

• امکان‌پذیری برآورده کردن الزامات از طریق قابلیت بهره‌برداری عملی

• ملاحظات اقتصادی در مورد امکان‌پذیری

• محدودیت‌های اجرایی مرتبط با تراکنش‌های زنجیره‌ای

• سطوح حمله که در دنیای فیزیکی وجود دارند

اگر سطوح شدت یا مفروضات مربوط به آسیب‌پذیری‌های مورد استفاده در معیارسنجی نادرست باشند، آن معیارها می‌توانند توسعه‌دهندگان را به بیراهه بکشانند. اظهارات OpenZeppelin نشان می‌دهد که صنعت امنیت کریپتو نیز همان انتظاراتی را از معیارهای مبتنی بر هوش مصنوعی دارد که در فرآیند حسابرسی پروتکل انتظار می‌رود.

یک تنش سازنده بین هوش مصنوعی و کارشناسان امنیتی

شایان ذکر است که OpenZeppelin پیش از انتشار انتقادات خود، از این ابتکار حمایت کرده بود. این نشان می‌دهد که بحث نه علیه استفاده از هوش مصنوعی برای معیارسنجی، بلکه برای تقویت فرآیند معیارسنجی هوش مصنوعی است.

رابطه متقابل بین جامعه حسابرسی امن بلاکچین و جامعه تحقیقات هوش مصنوعی یک تنش سازنده است که موارد زیر را ایجاد خواهد کرد:

همکاری برای توسعه تعاریف، معیارها و استانداردها برای مجموعه داده‌ها به کاهش احتمال اعتماد بیش از حد به سیستم‌های خودکار کمک خواهد کرد و همچنین نوآوری را تشویق می‌کند، زیرا ابزارهای مبتنی بر هوش مصنوعی همچنان در فضای توسعه وب 3 محبوبیت پیدا می‌کنند.

با افزایش روزافزون محبوبیت ابزارهای هوش مصنوعی در جامعه توسعه‌دهندگان وب 3، ایجاد یک فرآیند شفاف برای اعتبارسنجی استفاده از آن‌ها اهمیت فزاینده‌ای یافته است.

نتیجه‌گیری

نتایج EVMbench از OpenZeppelin نشان می‌دهد که ارزیابی کیفیت هوش مصنوعی مورد استفاده برای سنجش امنیت در فضای بلاکچین چقدر چالش‌برانگیز است. کشف آلودگی احتمالی داده‌های آموزشی که می‌تواند بر میزان توانایی هوش مصنوعی در شناسایی آسیب‌پذیری‌ها در قراردادها تأثیر بگذارد، گفتگوی بسیار مهمی را حول محور یکپارچگی معیارهای مورد استفاده در این صنعت ایجاد کرده است. این صنعت صدها میلیارد دلار ارزش را در زنجیره مدیریت می‌کند، بنابراین استفاده از روش‌های صحیح هنگام انجام هر نوع تحلیل حیاتی است.

برای اینکه هوش مصنوعی به یک عامل قابل اعتماد در حسابرسی قراردادهای هوشمند تبدیل شود، هر چارچوبی که برای ارزیابی هوش مصنوعی استفاده می‌شود، نیز باید تحت نوعی ارزیابی خصمانه قرار گیرد که پروتکل‌های زیربنایی که هوش مصنوعی به ایجاد آنها کمک خواهد کرد، تحت آن قرار می‌گیرند. انتظار می‌رود همگرایی هوش مصنوعی و بلاکچین کارایی‌های قابل توجهی را به ارمغان آورد، اما همانطور که این مطالعه موردی نشان داده است، نوآوری باید تحت استانداردهای دقیق قرار گیرد تا این نتیجه محقق شود.