OpenZeppelin wijst op methodologische gebreken in OpenAI’s EVMbench blockchain beveiligingsbenchmark

Er ontstaat een controverse over het gebruik van AI en blockchain-beveiliging. OpenZeppelin heeft de nieuwe AI-benchmarks van OpenAI met betrekking tot smart contracts (EVMbench) onderzocht en heeft enkele problemen gevonden met de methodologie en met de contaminatie van de geteste gegevens.

De benchmark, ontworpen om te beoordelen hoe goed AI-modellen kwetsbaarheden in smart contracts van de Ethereum Virtual Machine kunnen identificeren, herstellen en exploiteren, is het resultaat van een samenwerking tussen het crypto-investeringsbedrijf Paradigm en onderzoekers van Stanford University.

OpenZeppelin sprak zijn steun uit voor het voorstel, maar hanteerde dezelfde nauwgezetheid die wordt gebruikt voor het meten van andere belangrijke DeFi-protocollen bij het beoordelen van dit benchmarkvoorstel. Dit leidde tot een onderzoek van de benchmark dat talloze belangrijke vragen opriep over hoe we de AI-prestaties met betrekking tot blockchain-beveiliging in de toekomst zullen meten.

Waarvoor is EVMbench Ontworpen

EVMbench dient als een benchmark voor het testen van AI-modellen tegen daadwerkelijke kwetsbaarheden in smart contracts onder Solidity-code en EVM, waardoor u kunt:

Beveiligingskwetsbaarheden in Solidity-code identificeren,
De ernst van die beveiligingskwetsbaarheden classificeren,
Patches aanbevelen voor verzwakte beveiliging,
Laten zien hoe een aanvaller een zwakke plek zou exploiteren.

Het doel van de benchmark is om ontwikkelaars een objectieve meting te bieden van hoe effectief hun code een blockchain-gebaseerde oplossing zal beveiligen wanneer de financiële belangen hoog zijn en het exploiteren van de blockchain kan leiden tot onmeetbaar verlies.

Met het toenemende gebruik van AI in auditprocessen, kunnen deze benchmarks de selectie van AI-tools voor audit/protocolbeveiliging door ontwikkelteams beïnvloeden.

Echter; het vergelijken van AI in risicovolle/no-win omgevingen vereist een hoge mate van methodologische discipline bij het benchmarken van AI;

Afbeelding door Auteur

Het Beoordelingsproces van OpenZeppelin

Volgens een vertegenwoordiger van OpenZeppelin heeft het bedrijf ervoor gekozen om EVMbench te beoordelen volgens dezelfde algemene procedures als die welke worden gebruikt voor het auditen van grote gedecentraliseerde financiële protocollen.

OpenZeppelin heeft audits voltooid voor veel projecten, waaronder Aave, Lido en Uniswap, die allemaal transacties ter waarde van miljarden dollars verwerken.

OpenZeppelin verklaarde dat het niet de bedoeling was om dit initiatief aan te vechten; het ging er eerder om te zorgen dat beveiligingsclaims gebaseerd op AI worden ondersteund door een degelijke en rigoureuze statistische methodologie.

Het bedrijf verklaarde publiekelijk en in discussies met het publiek dat benchmarks voor kunstmatige intelligentie die beslissingen over de beveiliging van blockchain-projecten zullen beïnvloeden, een 'adversarial test' moeten doorstaan.

Belangrijkste Probleem 1: Contaminatie van Trainingsdata

Bevindingen uit mijn onderzoek tonen aan dat contaminatie van trainingsdata aanzienlijk risico met zich meebrengt.

Contaminatie treedt op wanneer de benchmarkdataset die wordt gebruikt om de prestaties van machine learning (ML) algoritmen te beoordelen, gedeeltelijk of volledig overlapt met de gegevens die worden gebruikt om de algoritmen te trainen. Deze overlap zal leiden tot opgeblazen prestatiestatistieken.

In de context van EVMbench bestaat er bezorgdheid over contaminatie.

Als kwetsbaarheden die in benchmarkdatasets zijn opgenomen, aanwezig waren in wijdverspreide openbare repositories (bijv. GitHub) of in andere gepubliceerde studies, bestaat de kans dat zeer geavanceerde ML-algoritmen die patronen hebben gememoriseerd (d.w.z. de associatie tussen trainingsdata en corresponderende prestaties hebben geleerd te onthouden).

Dit ondermijnt de geloofwaardigheid van de EVMbench-benchmarks als een geldige maatstaf voor het redeneervermogen van een algoritme.

Redeneren is cruciaal in de wereld van blockchain-beveiliging, waar een omgeving van 'adversarial creativity' bestaat, en waar het vertrouwen op het interpreteren van gememoriseerde gegevens (d.w.z. herinnering) veel moeilijker is dan het demonstreren van consistente toepassingen van analytisch redeneren (d.w.z. logica).

Belangrijkste Probleem 2: Fouten in Kwetsbaarheidsclassificatie

OpenZeppelin heeft in zijn tweede belangrijke zorg met betrekking tot kwetsbaarheidsclassificatie verklaard dat er talrijke problemen zijn geclassificeerd als zeer hoge ernst die niet op een praktische manier kunnen worden geëxploiteerd. Zij gaven aan dat ten minste vier van deze classificaties met hoge ernst inderdaad ongeldig zijn, omdat deze kwetsbaarheden onder daadwerkelijke blockchain-omstandigheden niet daadwerkelijk kunnen worden geëxploiteerd.

Het belang van het classificatiesysteem voor de ernst is dat:

• Classificaties van de ernst helpen middelen te richten op het eerst oplossen van de belangrijkste problemen

• Classificaties van de ernst beïnvloeden modelscores

• De publieke perceptie van AI-capaciteit zal worden gevormd door classificaties van de ernst

Als een model terecht een niet-exploiteerbaar probleem deprioritiseert, maar dat probleem is geclassificeerd met een hoge ernst, dan kan dat model hiervoor onterecht worden gestraft. Aan de andere kant kan een model veel meer problemen signaleren zonder te kunnen bepalen of deze exploiteerbaar zijn of niet, en toch een hogere score ontvangen.

Deze discrepanties ondermijnen ook de betrouwbaarheid van de benchmarks.

Afbeelding door Auteur

Waarom Benchmarkintegriteit Belangrijk is voor Blockchain-beveiliging

Een Cruciale Factor die de Adoptie van Kunstmatige Intelligentie Vormgeeft

Een benchmark die een maatstaf van vertrouwen biedt dat een specifiek AI-model effectief kwetsbaarheden kan identificeren en exploiteren, is iets dat ontwikkelteams ertoe kan brengen het op te nemen in hun productie-auditpipelines.

Het gebruik van gebrekkige audittools binnen Gedecentraliseerde Financiën (DeFi) kan ernstige gevolgen hebben, waaronder:

- Verlies van gebruikersgelden

- Protocol insolventie

- Verstoring van governance

- Reputatieschade

Blockchain smart contracts worden doorgaans geïmplementeerd en zijn onveranderlijk. Beveiligingskwetsbaarheden kunnen niet eenvoudig worden gepatcht zonder coördinatie van de governance of migratie. Dit verhoogt de behoefte aan accurate kwetsbaarheidsclassificaties en gedegen evaluatiemetingen. Een onbetrouwbare benchmark kan een omgeving creëren van misplaatst vertrouwen in AI-gestuurde beveiligingsproducten.

De Groeiende Rol van AI bij de Audit van Smart Contracts

Smart contracts worden tegenwoordig vaak beoordeeld met behulp van kunstmatige intelligentie (AI). Het gebruik van AI in dit opzicht kan als volgt worden samengevat:

- Om programmeercode vooraf te scannen en geïdentificeerde nieuwe kwetsbaarheden te lokaliseren,

- Menselijke auditors bijstaan bij het analyseren van de code op functionele of logische fouten,

- Aanbevelingen doen voor code-patches als er fouten zijn gevonden, en

- Testcases creëren die de exploitatie van de kwetsbaarheid simuleren.

Het effectieve gebruik van kunstmatige intelligentie zal het werk van menselijke auditors aanvullen, maar niet vervangen. Steeds vaker zien we het gebruik van kunstmatige intelligentie op deze manier. EVMbench is een poging om te evalueren hoe goed AI presteert ten opzichte van vastgestelde metrics in dit subdomein. OpenZeppelin levert kritiek op deze evaluatiemethode en benadrukt de noodzaak van een veilig en bruikbaar ontworpen evaluatieproces voor benchmarkingdoeleinden.

Tenslotte, om effectief te zijn ten opzichte van tegenstanders die actief zwakke plekken zullen zoeken, moeten evaluatieprocessen zo worden ontworpen dat ze niet kunnen worden 'gegamed'.

Bredere Implicaties voor AI-evaluatie in Crypto

De controverse rond EVMbench benadrukt een voortdurende uitdaging bij het evalueren van AI; het onderscheid maken tussen waar redeneren en patroonherkenning.

Naarmate de capaciteiten van grote taalmodellen blijven toenemen, verbeteren ook de benchmarks die worden gebruikt om hun capaciteiten te beoordelen. Zonder echter de onderliggende dataset van een benchmark goed te isoleren en te valideren, kunnen dergelijke capaciteitsverbeteringen worden toegeschreven aan blootstelling aan trainingsdata in plaats van aan daadwerkelijke analytische diepgang.

Dit onderscheid is vooral belangrijk bij het evalueren van de beveiliging van smart contracts, aangezien dit soort exploits vaak complexe interacties, contextuele beperkingen en economische 'edge cases' met zich meebrengen. Om een betrouwbare benchmark te zijn, moet een benchmark:

• Haalbaarheid van het Voldoen aan Vereisten door Praktische Exploiteerbaarheid

• Economische Overwegingen over Haalbaarheid

• Uitvoeringsbeperkingen met betrekking tot On-Chain Transacties

• Aanvalsoppervlakken Die Bestaan in de Fysieke Wereld

Mochten de ernstniveaus of aannames over kwetsbaarheden die in benchmarking worden gebruikt onjuist zijn, dan zouden die benchmarks ontwikkelaars op het verkeerde pad kunnen leiden. De opmerkingen van OpenZeppelin geven aan dat de crypto-beveiligingsindustrie dezelfde verwachtingen heeft van AI-gebaseerde benchmarks als wordt verwacht binnen het protocolauditproces.

Een Constructieve Spanning Tussen AI- en Beveiligingsexperts

Opgemerkt moet worden dat OpenZeppelin hun steun voor het initiatief uitsprak voordat ze hun kritiek publiceerden. Dit suggereert dat het argument niet tegen het gebruik van AI voor benchmarking is, maar eerder om het proces van benchmarking van AI te versterken.

De onderlinge relatie tussen de blockchain-beveiligingsauditgemeenschap en de AI-onderzoeksgemeenschap is een constructieve spanning die zal creëren:

Samenwerking bij het ontwikkelen van definities, criteria en standaarden voor datasets zal de kans op overmatig vertrouwen in geautomatiseerde systemen helpen verminderen en tegelijkertijd innovatie aanmoedigen, aangezien AI-gebaseerde tools steeds populairder worden binnen de Web3-ontwikkelingsruimte.

Naarmate tools voor kunstmatige intelligentie steeds meer terrein winnen in de Web3-ontwikkelingsgemeenschap, is het steeds belangrijker geworden om een transparant proces voor het valideren van hun gebruik op te zetten.

Conclusie

De resultaten van EVMbench van OpenZeppelin benadrukken hoe uitdagend het is om de kwaliteit van kunstmatige intelligentie te beoordelen die wordt gebruikt voor het beoordelen van beveiliging in de blockchain-ruimte. De ontdekking van potentiële contaminatie van trainingsdata die van invloed kan zijn op hoe goed AI kwetsbaarheden in contracten kan identificeren, heeft een zeer belangrijke discussie gegenereerd over de integriteit van benchmarks die in deze industrie worden gebruikt. Deze industrie beheert honderden miljarden dollars aan waarde die on-chain wordt aangehouden, dus het gebruik van gedegen methoden bij het uitvoeren van enige vorm van analyse is van cruciaal belang.

Om kunstmatige intelligentie een betrouwbare bijdrage te laten leveren aan het auditen van smart contracts, zal elk raamwerk dat wordt gebruikt om AI te evalueren ook onderworpen moeten worden aan het soort 'adversarial assessment' dat de onderliggende protocollen die kunstmatige intelligentie zal helpen opzetten, vereisen. De convergentie van AI en blockchain zal naar verwachting aanzienlijke efficiëntie opleveren, maar zoals deze casestudy heeft aangetoond, zal innovatie onderworpen moeten zijn aan veeleisende normen om dit resultaat te realiseren.