OpenZeppelin semnalează deficiențe metodologice în benchmark-ul de securitate blockchain EVMbench al OpenAI

O controversă se deschide în privința utilizării IA și a securității blockchain. OpenZeppelin a examinat noile criterii de referință IA emise de OpenAI privind contractele inteligente (EVMbench) și a constatat unele probleme legate de metodologie, precum și de contaminarea datelor testate.

Conceput pentru a evalua cât de bine pot identifica, remedia și exploata modelele IA vulnerabilitățile în contractele inteligente ale Mașinii Virtuale Ethereum, acest benchmark este rezultatul unei colaborări între compania de investiții crypto Paradigm și cercetători de la Universitatea Stanford.

OpenZeppelin și-a exprimat sprijinul pentru propunere, dar a folosit același nivel de examinare utilizat pentru măsurarea altor protocoale DeFi majore atunci când a aplicat-o acestei propuneri de benchmark. Acest lucru a condus la o examinare a benchmark-ului care a ridicat numeroase întrebări importante privind modul în care vom măsura performanța IA legată de securitatea blockchain în viitor.

Ce Este EVMbench Conceput Să Facă

EVMbench servește ca un criteriu de referință pentru testarea modelelor IA împotriva vulnerabilităților reale din contractele inteligente sub cod Solidity și EVM, permițându-vă să:

Identificați vulnerabilitățile de securitate în codul Solidity,
Clasificați severitatea acelor vulnerabilități de securitate,
Recomandați corecții pentru securitatea slăbită,
Demonstrați cum un atacator ar exploata o slăbiciune.

Scopul benchmark-ului este de a oferi dezvoltatorilor o măsurătoare obiectivă a eficacității cu care codul lor va securiza o soluție bazată pe blockchain atunci când mizele financiare sunt mari și exploatarea blockchain-ului poate duce la pierderi inestimabile.

Odată cu utilizarea tot mai mare a IA în procesele de audit, aceste benchmark-uri ar putea influența selecția de către echipele de dezvoltare a instrumentelor IA pentru audit/securitate protocolară.

Cu toate acestea; compararea IA în medii cu risc ridicat/fără câștig necesită un grad înalt de disciplină metodologică în benchmarking-ul IA;

Imagine de autor

Procesul de Revizuire al OpenZeppelin

Potrivit unui reprezentant OpenZeppelin, compania a ales să revizuiască EVMbench urmând aceleași proceduri generale ca cele utilizate pentru auditarea protocoalelor mari de finanțare descentralizată.

OpenZeppelin a finalizat audituri pentru multe proiecte, inclusiv Aave, Lido și Uniswap, toate procesând tranzacții în valoare de miliarde de dolari.

OpenZeppelin a declarat că scopul său nu a fost de a contesta această inițiativă; mai degrabă, a fost de a se asigura că afirmațiile de securitate bazate pe IA sunt susținute de o metodologie statistică arbitrară și riguroasă.

Compania a declarat public și în discuțiile cu publicul că benchmark-urile de inteligență artificială care vor influența deciziile privind securitatea proiectelor blockchain trebuie să treacă un test contradictoriu.

Problema Cheie 1: Contaminarea Datelor de Antrenament

Descoperirile cercetării mele demonstrează că contaminarea datelor de antrenament prezintă un risc considerabil.

Contaminarea apare atunci când setul de date benchmark utilizat pentru a evalua performanța algoritmilor de învățare automată (ML) se suprapune parțial sau complet cu datele utilizate pentru antrenarea algoritmilor. Această suprapunere va duce la metrici de performanță umflate.

În contextul EVMbench, există îngrijorări cu privire la contaminare.

Dacă vreo vulnerabilitate conținută în seturile de date de benchmarking a fost prezentă în depozitele publice larg disponibile (de exemplu, GitHub) sau în alte studii publicate, există șansa ca algoritmii ML foarte avansați să fi memorat acele tipare (adică, au învățat să memoreze asocierea dintre datele de antrenament și performanțele corespunzătoare).

Astfel subminând credibilitatea benchmark-urilor EVMbench ca o măsură validă a capacității de raționament a unui algoritm.

Raționamentul este critic în lumea securității blockchain unde există un mediu de creativitate adversativă, în care bazarea pe interpretarea datelor memorate (adică, rechemare) este mult mai dificilă decât demonstrarea aplicațiilor consistente ale raționamentului analitic (adică, logică).

Problema Cheie 2: Erori de Clasificare a Vulnerabilităților

OpenZeppelin a declarat, în a doua sa preocupare principală privind clasificarea vulnerabilităților, că par să existe numeroase probleme clasificate ca având severitate foarte ridicată care nu pot fi exploatate într-o manieră practică. Ei ne-au indicat că cel puțin patru dintre aceste clasificări de severitate ridicată sunt într-adevăr invalide deoarece, în condiții reale de blockchain, aceste vulnerabilități nu pot fi de fapt exploatate.

Importanța sistemului de clasificare a severității este că:

• Clasificările de severitate ajută la concentrarea resurselor pe remedierea mai întâi a celor mai importante probleme

• Clasificările de severitate influențează scorurile modelului

• Percepția publică asupra capacității IA va fi modelată de clasificările de severitate

Dacă un model prioritizează corect o problemă neexploatabilă, dar acea problemă a primit o severitate ridicată, atunci modelul ar putea fi penalizat pe nedrept pentru acest lucru. Pe de altă parte, un model ar putea pur și simplu să semnaleze mult mai multe probleme fără a putea determina dacă sunt exploatabile sau nu și ar putea primi un scor mai mare.

Aceste discrepanțe subminează, de asemenea, fiabilitatea benchmark-urilor.

Imagine de autor

De Ce Contează Integritatea Benchmark-ului Pentru Securitatea Blockchain

Un Factor Critic care Modelează Adoptarea Inteligenței Artificiale

Un benchmark care oferă o măsură de încredere că un anumit model IA va putea identifica și exploata eficient vulnerabilitățile este ceva ce poate determina echipele de dezvoltare să-l încorporeze în conductele lor de audit de producție.

Pot exista consecințe grave pentru utilizarea instrumentelor de audit defectuoase în Finanțarea Descentralizată (DeFi) care includ:

- Pierderea fondurilor utilizatorilor

- Insolvența protocolului

- Perturbarea guvernanței

- Daune de reputație

Contractele inteligente blockchain sunt de obicei implementate și imutabile. Vulnerabilitățile de securitate nu pot fi ușor corectate fără coordonarea guvernanței sau migrare. Acest lucru crește necesitatea unor clasificări precise ale vulnerabilităților și a unor metrici de evaluare solide. Un benchmark nesigur poate crea un mediu de încredere greșit plasată în produsele de securitate bazate pe IA.

Rolul Crescând al IA în Auditarea Contractelor Inteligente

Contractele inteligente sunt acum revizuite în mod obișnuit folosind inteligența artificială (IA). Utilizarea IA în acest sens poate fi rezumată astfel:

- Pentru a pre-scana codul de programare și a localiza noi vulnerabilități identificate,

- Asistarea auditorilor umani în analiza codului pentru erori funcționale sau logice,

- Furnizarea de recomandări pentru corecții de cod dacă se găsesc erori și

- Crearea de cazuri de testare care simulează exploatarea vulnerabilității.

Utilizarea eficientă a inteligenței artificiale va completa, dar nu va înlocui, munca auditorilor umani. În mod crescând, observăm utilizarea inteligenței artificiale în acest mod. EVMbench este un efort de a evalua cât de bine performează IA în raport cu metricile stabilite în acest sub-domeniu. OpenZeppelin oferă o critică a acestei metode de evaluare, remarcând necesitatea unui proces de evaluare sigur și util conceput în scopuri de benchmarking.

În cele din urmă, pentru a fi eficiente în raport cu adversarii care vor căuta activ slăbiciuni, procesele de evaluare trebuie să fie concepute astfel încât să nu poată fi 'trucate'.

Implicații Mai Largi Pentru Evaluarea IA în Crypto

Controversa din jurul EVMbench subliniază o provocare continuă în evaluarea IA; distingerea între raționamentul real și recunoașterea tiparelor.

Pe măsură ce capacitățile modelelor lingvistice mari continuă să se extindă, benchmark-urile utilizate pentru a le evalua capacitățile se îmbunătățesc, de obicei, și ele. Cu toate acestea, fără a izola și valida în mod corespunzător setul de date subiacent al unui benchmark, astfel de îmbunătățiri ale capacității ar putea fi atribuite expunerii la date de antrenament, mai degrabă decât dezvoltării unei profunzimi analitice reale.

Această distincție este deosebit de importantă atunci când se evaluează securitatea contractelor inteligente, deoarece aceste tipuri de exploatări implică frecvent interacțiuni complexe, constrângeri contextuale și cazuri limită economice. Pentru a fi un benchmark fiabil, un benchmark trebuie să:

• Fezabilitatea de a îndeplini cerințele prin exploatabilitate practică

• Considerații economice privind fezabilitatea

• Constrângeri de execuție legate de tranzacțiile on-chain

• Suprafețe de atac care există în lumea fizică

Dacă nivelurile de severitate sau ipotezele despre vulnerabilitățile utilizate în benchmarking sunt incorecte, acele benchmark-uri ar putea induce în eroare dezvoltatorii. Comentariile OpenZeppelin indică faptul că industria de securitate crypto are aceleași așteptări de la benchmark-urile bazate pe IA ca cele așteptate în procesul de audit al protocolului.

O Tensiune Constructivă Între Experții IA și de Securitate

Trebuie menționat că OpenZeppelin și-a exprimat sprijinul pentru inițiativă înainte de a-și publica criticile. Acest lucru sugerează că argumentul nu este împotriva utilizării IA pentru benchmarking, ci mai degrabă pentru consolidarea procesului de benchmarking al IA.

Interdependența dintre comunitatea de audit securizat a blockchain-ului și comunitatea de cercetare IA este o tensiune constructivă care va crea:

Lucrul în comun pentru a dezvolta definiții, criterii și standarde pentru seturile de date va contribui la reducerea șanselor de încredere excesivă în sistemele automatizate, încurajând în același timp inovația, pe măsură ce instrumentele bazate pe IA continuă să crească în popularitate în spațiul de dezvoltare Web3.

Pe măsură ce instrumentele de inteligență artificială câștigă tot mai multă tracțiune în comunitatea de dezvoltare Web3, a devenit din ce în ce mai important să se stabilească un proces transparent pentru validarea utilizării lor.

Concluzie

Rezultatele EVMbench de la OpenZeppelin subliniază cât de dificil este să evaluezi calitatea inteligenței artificiale utilizate pentru evaluarea securității în spațiul blockchain. Descoperirea potențialei contaminări a datelor de antrenament, care ar putea afecta cât de bine poate identifica IA vulnerabilitățile în contracte, a generat o conversație foarte importantă în jurul integrității benchmark-urilor utilizate în această industrie. Această industrie gestionează sute de miliarde de dolari în valoare, care este deținută on-chain, deci utilizarea unor metode solide la efectuarea oricărui tip de analiză este critică.

Pentru ca inteligența artificială să devină un contribuitor fiabil la auditarea contractelor inteligente, orice cadru utilizat pentru evaluarea IA va trebui, de asemenea, să fie supus tipului de evaluare contradictorie pe care o vor ajuta să o stabilească protocoalele subiacente pe care inteligența artificială le va ajuta să le stabilească. Convergența IA și a blockchain-ului este de așteptat să genereze eficiențe semnificative, dar, așa cum a arătat acest studiu de caz, inovația va trebui să fie supusă unor standarde exigente pentru ca acest rezultat să fie realizat.