Inihayag ng OpenZeppelin ang Metodolohikal na Depekto sa OpenAI’s EVMbench Blockchain Security Benchmark

Natuklasan ng OpenZeppelin ang kontaminasyon ng data at mga hindi wastong mataas na antas ng kahinaan sa OpenAI’s EVMbench, na nagtatanong sa pagiging maaasahan ng AI benchmark para sa seguridad ng blockchain.

May lumalabas na kontrobersiya tungkol sa paggamit ng AI at seguridad ng blockchain. Sinuri ng OpenZeppelin ang mga bagong benchmark ng AI na inilabas ng OpenAI tungkol sa mga smart contract (EVMbench), at nakakita ng ilang isyu sa metodolohiya pati na rin ang kontaminasyon ng datong sinusuri.
Dinisenyo upang suriin kung gaano kahusay matukoy, maayos, at mapagsamantalahan ng mga modelo ng AI ang mga kahinaan sa mga smart contract ng Ethereum Virtual Machine, ang benchmark ay resulta ng pagtutulungan sa pagitan ng kumpanya ng pamumuhunan sa crypto na Paradigm at mga mananaliksik mula sa Stanford University.
Nagpahayag ng suporta ang OpenZeppelin para sa panukala ngunit ginamit ang parehong masusing pagsusuri na ginagamit para sa pagsukat ng iba pang pangunahing protokol ng DeFi nang ginawa rin ito sa panukalang benchmark na ito. Ito ay humantong sa isang pagsusuri ng benchmark na nagtaas ng maraming mahahalagang tanong tungkol sa kung paano natin susukatin ang pagganap ng AI na may kaugnayan sa seguridad ng blockchain sa hinaharap.
Ano ang Disenyo ng EVMbench
Ang EVMbench ay nagsisilbing benchmark para sa pagsubok ng mga modelo ng AI laban sa aktwal na mga kahinaan sa mga smart contract sa ilalim ng Solidity code at EVM, na nagbibigay-daan sa iyong:
- Tukuyin ang mga kahinaan sa seguridad sa Solidity code,
- Iuri ang kalubhaan ng mga kahinaan sa seguridad na iyon,
- Magrekomenda ng mga patch para sa humina na seguridad,
- Ipakita kung paano mapagsasamantalahan ng isang attacker ang isang kahinaan.
Ang layunin ng benchmark ay magbigay sa mga developer ng obhetibong pagsukat kung gaano kaepektibo ang kanilang code sa pagseguro ng isang solusyon na batay sa blockchain kapag mataas ang pinansyal na pusta at ang pagsasamantala sa blockchain ay maaaring magresulta sa hindi masusukat na pagkalugi.
Sa lumalaking paggamit ng AI sa mga proseso ng pag-audit, ang mga benchmark na ito ay maaaring makaapekto sa pagpili ng mga koponan ng developer ng mga tool ng AI para sa seguridad ng audit/protocol.
Gayunpaman; ang paghahambing ng AI sa mga kapaligiran na may mataas na panganib/walang panalo ay nangangailangan ng mataas na antas ng metodolohikal na disiplina sa pag-benchmark ng AI;

Image by Author
Proseso ng Pagsusuri ng OpenZeppelin
Ayon sa isang kinatawan ng OpenZeppelin, pinili ng kumpanya na suriin ang EVMbench gamit ang parehong pangkalahatang pamamaraan na ginagamit para sa pag-audit ng malalaking desentralisadong protokol ng pananalapi.
Nakakumpleto na ang OpenZeppelin ng mga audit sa maraming proyekto, kabilang ang Aave, Lido, at Uniswap, na lahat ay nagpoproseso ng bilyun-bilyong dolyar na halaga ng transaksyon.
Sinabi ng OpenZeppelin na ang layunin nito ay hindi hamunin ang inisyatibong ito; sa halip, ito ay upang tiyakin na ang mga pag-angkin sa seguridad na batay sa AI ay sinusuportahan ng arbitraryo at mahigpit na istatistikal na metodolohiya.
Malawakang ipinahayag ng kumpanya sa publiko at sa mga diskusyon na ang mga benchmark ng artificial intelligence na makakaapekto sa mga desisyon tungkol sa seguridad para sa mga proyekto ng blockchain ay dapat makapasa sa isang adversarial test.
Pangunahing Isyu 1: Kontaminasyon ng Data ng Pagsasanay
Ang mga natuklasan mula sa aking pananaliksik ay nagpapakita na ang kontaminasyon ng data ng pagsasanay ay nagdudulot ng malaking panganib.
Nangyayari ang kontaminasyon kung saan ang benchmark dataset na ginamit upang suriin ang pagganap ng mga algorithm ng machine learning (ML) ay bahagyang o ganap na nag-o-overlap sa data na ginamit upang sanayin ang mga algorithm. Ang overlap na ito ay hahantong sa lumubog na mga sukatan ng pagganap.
Sa konteksto ng EVMbench, may pag-aalala tungkol sa kontaminasyon.
Kung ang anumang kahinaan na nasa loob ng mga benchmarking dataset ay naroroon sa malawakang magagamit na mga pampublikong repository (hal., GitHub) o sa iba pang na-publish na pag-aaral, may posibilidad na ang mga advanced na algorithm ng ML ay na-memorize ang mga pattern na iyon (iyon ay, natuto na kabisaduhin ang koneksyon sa pagitan ng data ng pagsasanay at mga kaukulang pagganap).
Sa gayon ay sinisira ang kredibilidad ng mga benchmark ng EVMbench bilang isang wastong sukatan ng kakayahan ng isang algorithm na mangatwiran.
Ang pagangatwiran ay kritikal sa mundo ng seguridad ng blockchain kung saan mayroong isang kapaligiran ng adversarial creativity kung saan ang pag-asa sa pagpapakahulugan ng memorized data (iyon ay, pag-alala) ay mas mahirap kaysa sa pagpapakita ng pare-parehong aplikasyon ng analytical reasoning (iyon ay, lohika).
Pangunahing Isyu 2: Mga Error sa Pag-uuri ng Kahinaan
Sinabi ng OpenZeppelin sa ikalawang pangunahing pag-aalala nito tungkol sa pag-uuri ng kahinaan na mayroong maraming isyu na inuri bilang napakataas na kalubhaan na hindi maaaring pagsamantalahan sa praktikal na paraan. Ipinaalam nila sa amin na hindi balido ang hindi bababa sa apat sa mga klasipikasyong ito ng mataas na kalubhaan dahil, sa ilalim ng aktwal na kondisyon ng blockchain, ang mga kahinaang ito ay hindi talaga maaaring pagsamantalahan.
Ang kahalagahan ng sistema ng pag-uuri ng kalubhaan ay ang:
• Tinutulungan ng mga pag-uuri ng kalubhaan na pagtuunan ang mga mapagkukunan sa pag-aayos ng mga pinakamahalagang isyu muna
• Naaapektuhan ng mga pag-uuri ng kalubhaan ang mga score ng modelo
• Huhubugin ng mga pag-uuri ng kalubhaan ang pampublikong persepsyon sa kakayahan ng AI
Kung tama ang pagpapababa ng priyoridad ng isang modelo sa isang isyu na hindi mapagsasamantalahan ngunit ang isyung iyon ay nabigyan ng mataas na kalubhaan, kung gayon ang modelong iyon ay maaaring hindi makatarungang maparusahan sa paggawa nito. Sa kabilang banda, ang isang modelo ay maaaring simpleng mag-flag ng mas maraming isyu nang hindi matukoy kung ang mga ito ay mapagsasamantalahan o hindi at maaaring makatanggap ng mas mataas na score.
Pinapahina rin ng mga pagkakaibang ito ang pagiging maaasahan ng mga benchmark.

Image by Author
Bakit Mahalaga ang Integridad ng Benchmark para sa Seguridad ng Blockchain
Isang Kritikal na Salik na Humuhubog sa Pag-ampon ng Artificial Intelligence
Ang isang benchmark na nagbibigay ng sukatan ng kumpiyansa na ang isang partikular na modelo ng AI ay magagawang epektibong matukoy at mapagsamantalahan ang mga kahinaan ay isang bagay na maaaring humantong sa mga development team na isama ito sa kanilang mga pipeline ng pag-audit sa produksyon.
Maaaring magkaroon ng malubhang kahihinatnan ang paggamit ng mga depektibong tool sa pag-audit sa loob ng Decentralized Finance (DeFi) na kinabibilangan ng:
- Pagkawala ng pondo ng user
- Insolvency ng protokol
- Pagkagambala ng pamamahala
- Pagkasira ng reputasyon
Ang mga smart contract ng Blockchain ay karaniwang inilalagay at hindi mababago (immutable). Ang mga kahinaan sa seguridad ay hindi madaling ma-patch nang walang koordinasyon ng pamamahala o paglilipat. Pinapataas nito ang pangangailangan para sa tumpak na pag-uuri ng kahinaan at matibay na sukatan ng ebalwasyon. Ang isang hindi maaasahang benchmark ay maaaring lumikha ng isang kapaligiran ng maling pagtitiwala sa mga produkto ng seguridad na pinapagana ng AI.
Ang Lumalaking Papel ng AI sa Pag-audit ng Smart Contract
Ang mga smart contract ay karaniwang sinusuri na ngayon gamit ang artificial intelligence (AI). Ang paggamit ng AI sa bagay na ito ay maaaring ibuod bilang sumusunod:
- Upang i-pre-scan ang programming code at hanapin ang mga natukoy na bagong kahinaan,
- Tumulong sa mga human auditor sa pagsusuri ng code para sa mga functional o logical error,
- Magbigay ng mga rekomendasyon para sa mga code patch kung may mga error na matatagpuan, at
- Lumikha ng mga test case na nagbibigay-simulasyon sa pagsasamantala ng kahinaan.
Ang epektibong paggamit ng artificial intelligence ay pupunan, ngunit hindi papalit, sa gawain ng mga human auditor. Unti-unti nating nakikita ang paggamit ng artificial intelligence sa ganitong paraan. Ang EVMbench ay isang pagsisikap upang suriin kung gaano kahusay ang pagganap ng AI laban sa mga itinatag na sukatan sa sub-domain na ito. Nag-aalok ang OpenZeppelin ng isang kritiko sa pamamaraang ito ng ebalwasyon, na binibigyang-diin ang pangangailangan para sa isang ligtas at magagamit na proseso ng ebalwasyon na dinisenyo para sa layunin ng benchmarking.
Panghuli, upang maging epektibo sa mga kalaban na aktibong maghahanap ng mga kahinaan, ang mga proseso ng ebalwasyon ay dapat idinisenyo upang hindi sila malinlang ('gamed').
Mas Malawak na Implikasyon para sa Ebalwasyon ng AI sa Crypto
Ang kontrobersiya na pumapalibot sa EVMbench ay nagbibigay-diin sa isang patuloy na hamon kapag sinusuri ang AI; ang pagkilala sa pagitan ng tunay na pagangatwiran at pagkilala sa pattern.
Habang patuloy na lumalawak ang mga kakayahan ng mga large language model, karaniwang bumubuti rin ang mga benchmark na ginagamit upang suriin ang kanilang mga kakayahan. Gayunpaman, nang walang tamang paghihiwalay at pagpapatunay sa pinagbabatayan na dataset ng isang benchmark, ang mga pagpapabuti ng kakayahan na ito ay maaaring maiugnay sa pagiging exposed sa data ng pagsasanay sa halip na nabuo sa pamamagitan ng tunay na analytical depth.
Ang pagkakaibang ito ay lalo na mahalaga kapag sinusuri ang seguridad ng mga smart contract, dahil ang mga ganitong uri ng pagsasamantala ay madalas na kinasasangkutan ng kumplikadong interaksyon, contextual constraints, at economic edge cases. Upang maging isang maaasahang benchmark, ang isang benchmark ay dapat:
• Pagiging Posible ng Pagtupad ng mga Kinakailangan sa pamamagitan ng Praktikal na Exploitability
• Mga Pagsasaalang-alang sa Ekonomiya tungkol sa Pagiging Posible
• Mga Paghihigpit sa Pagpapatupad na May Kaugnayan sa On-Chain Transactions
• Mga Attack Surface Na Umiiral sa Pisikal na Mundo
Kung ang mga antas ng kalubhaan o mga pagpapalagay tungkol sa mga kahinaan na ginamit sa benchmarking ay mali, ang mga benchmark na iyon ay maaaring magligaw sa mga developer. Ipinahihiwatig ng mga komento ng OpenZeppelin na ang industriya ng seguridad ng crypto ay may parehong mga inaasahan sa mga benchmark na nakabatay sa AI tulad ng inaasahan sa proseso ng pag-audit ng protokol.
Isang Konstruktibong Tensyon sa Pagitan ng AI at Mga Eksperto sa Seguridad
Dapat tandaan na ipinahayag ng OpenZeppelin ang kanilang suporta para sa inisyatiba bago ilathala ang kanilang kritisismo. Ito ay nagmumungkahi na ang argumento ay hindi laban sa paggamit ng AI para sa benchmarking, kundi upang palakasin ang proseso ng benchmarking ng AI.
Ang ugnayan sa pagitan ng komunidad ng ligtas na pag-audit ng blockchain at ng komunidad ng pananaliksik ng AI ay isang konstruktibong tensyon na lilikha ng:
Ang pagtutulungan upang bumuo ng mga depinisyon, pamantayan, at standard para sa mga dataset ay makakatulong na bawasan ang posibilidad ng labis na kumpiyansa sa mga awtomatikong sistema habang naghihikayat din ng inobasyon, habang patuloy na lumalaki ang popularidad ng mga tool na nakabatay sa AI sa loob ng espasyo ng pagpapaunlad ng Web3.
Habang patuloy na lumalaki ang pagtanggap ng mga tool ng artificial intelligence sa komunidad ng pagpapaunlad ng Web3, lalong naging mahalaga ang pagtatatag ng isang transparent na proseso para sa pagpapatunay ng kanilang paggamit.
Konklusyon
Ang mga resulta ng EVMbench mula sa OpenZeppelin ay nagbibigay-diin kung gaano kahirap suriin ang kalidad ng artificial intelligence na ginagamit para sa pagtatasa ng seguridad sa espasyo ng blockchain. Ang pagtuklas ng potensyal na kontaminasyon ng data ng pagsasanay na maaaring makaapekto sa kung gaano kahusay matukoy ng AI ang mga kahinaan sa mga kontrata, ay bumuo ng isang napakahalagang pag-uusap tungkol sa integridad ng mga benchmark na ginagamit sa industriyang ito. Ang industriyang ito ay namamahala ng daan-daang bilyong dolyar na halaga na hawak sa chain, kaya kritikal ang paggamit ng matibay na pamamaraan kapag nagsasagawa ng anumang uri ng pagsusuri.
Para maging isang maaasahang kontribyutor ang artificial intelligence sa pag-audit ng mga smart contract, anumang balangkas na ginagamit upang suriin ang AI ay kailangan ding sumailalim sa uri ng adversarial assessment na itatatag ng mga pinagbabatayan na protokol na tutulungan ng artificial intelligence. Ang pagtatagpo ng AI at blockchain ay inaasahang magdudulot ng malaking kahusayan ngunit tulad ng ipinakita ng case study na ito, ang inobasyon ay kailangang sumailalim sa mahigpit na pamantayan upang matupad ang resultang ito.
Mga Sanggunian
OpenZeppelin X Post on EVMbench Review
OpenAI and Paradigm EVMbench Launch Announcement
OpenZeppelin Security Audit Methodology Documentation
Ethereum Smart Contract Security Best Practices Documentation
Academic Research on AI Benchmark Data Contamination and Evaluation Bias






