OpenZeppelin signale des failles méthodologiques dans le benchmark de sécurité blockchain EVMbench d'OpenAI

Une controverse s'ouvre concernant l'utilisation de l'IA et la sécurité de la blockchain. OpenZeppelin a examiné les nouveaux benchmarks d'IA publiés par OpenAI concernant les contrats intelligents (EVMbench), et a constaté des problèmes de méthodologie ainsi qu'une contamination des données testées.

Conçu pour évaluer la capacité des modèles d'IA à identifier, corriger et exploiter les vulnérabilités dans les contrats intelligents de la Machine Virtuelle Ethereum, le benchmark est le résultat d'une collaboration entre la société d'investissement crypto Paradigm et des chercheurs de l'Université de Stanford.

OpenZeppelin a exprimé son soutien à la proposition mais a utilisé le même niveau d'examen que celui appliqué aux autres grands protocoles DeFi pour évaluer cette proposition de benchmark. Cela a conduit à un examen du benchmark qui a soulevé de nombreuses questions importantes sur la manière dont nous allons mesurer les performances de l'IA liées à la sécurité de la blockchain à l'avenir.

À quoi sert EVMbench

EVMbench sert de benchmark pour tester les modèles d'IA contre les vulnérabilités réelles dans les contrats intelligents sous code Solidity et EVM, vous permettant de :

Identifier les vulnérabilités de sécurité dans le code Solidity,
Classer la gravité de ces vulnérabilités de sécurité,
Recommander des correctifs pour une sécurité affaiblie,
Démontrer comment un attaquant exploiterait une faiblesse.

L'objectif du benchmark est de fournir aux développeurs une mesure objective de l'efficacité avec laquelle leur code sécurisera une solution basée sur la blockchain lorsque les enjeux financiers sont élevés et que l'exploitation de la blockchain peut entraîner des pertes incommensurables.

Avec l'utilisation croissante de l'IA dans les processus d'audit, ces benchmarks pourraient influencer le choix des outils d'IA par les équipes de développement pour l'audit/la sécurité des protocoles.

Cependant, la comparaison de l'IA dans des environnements à haut risque/sans victoire exige une grande rigueur méthodologique dans l'étalonnage de l'IA ;

Image par l'auteur

Processus d'examen d'OpenZeppelin

Selon un représentant d'OpenZeppelin, la société a choisi d'examiner EVMbench en suivant les mêmes procédures générales que celles utilisées pour auditer les grands protocoles de finance décentralisée.

OpenZeppelin a réalisé des audits sur de nombreux projets, dont Aave, Lido et Uniswap, qui traitent tous des milliards de dollars de transactions.

OpenZeppelin a déclaré que son objectif n'était pas de contester cette initiative, mais plutôt de s'assurer que les revendications de sécurité basées sur l'IA sont étayées par une méthodologie statistique arbitraire et rigoureuse.

La société a déclaré publiquement et lors de discussions avec le public que les benchmarks d'intelligence artificielle qui influenceront les décisions concernant la sécurité des projets blockchain doivent passer un test contradictoire.

Problème clé 1 : Contamination des données d'entraînement

Les résultats de ma recherche démontrent que la contamination des données d'entraînement présente un risque considérable.

La contamination se produit lorsque l'ensemble de données de benchmark utilisé pour évaluer les performances des algorithmes d'apprentissage automatique (ML) chevauche partiellement ou complètement les données utilisées pour entraîner les algorithmes. Ce chevauchement entraînera des métriques de performance gonflées.

Dans le contexte d'EVMbench, il y a une inquiétude concernant la contamination.

Si des vulnérabilités contenues dans les ensembles de données de benchmarking étaient présentes dans des dépôts publics largement disponibles (par exemple, GitHub) ou dans d'autres études publiées, il est probable que des algorithmes ML très avancés aient mémorisé ces motifs (c'est-à-dire qu'ils aient appris à mémoriser l'association entre les données d'entraînement et les performances correspondantes).

Ceci sape ainsi la crédibilité des benchmarks EVMbench en tant que mesure valide de la capacité d'un algorithme à raisonner.

Le raisonnement est essentiel dans le monde de la sécurité blockchain où existe un environnement de créativité adverse où la dépendance à l'interprétation des données mémorisées (c'est-à-dire le rappel) est beaucoup plus difficile que la démonstration d'applications cohérentes de raisonnement analytique (c'est-à-dire la logique).

Problème clé 2 : Erreurs de classification des vulnérabilités

OpenZeppelin a déclaré dans sa deuxième principale préoccupation concernant la classification des vulnérabilités qu'il semble y avoir de nombreux problèmes classés comme de très haute gravité qui ne peuvent pas être exploités de manière pratique. Ils nous ont indiqué qu'au moins quatre de ces classifications de haute gravité sont en effet invalides car, dans des conditions réelles de blockchain, ces vulnérabilités ne peuvent pas être exploitées.

L'importance du système de classification de la gravité est la suivante :

• Les classifications de gravité aident à concentrer les ressources sur la résolution des problèmes les plus importants en premier

• Les classifications de gravité ont un impact sur les scores du modèle

• La perception publique des capacités de l'IA sera façonnée par les classifications de gravité

Si un modèle dépriorise correctement un problème non exploitable, mais que ce problème a été assigné à une gravité élevée, alors ce modèle pourrait être pénalisé injustement pour cela. D'un autre côté, un modèle pourrait simplement signaler beaucoup plus de problèmes sans pouvoir déterminer s'ils sont exploitables ou non et pourrait recevoir un score plus élevé.

Ces divergences minent également la fiabilité des benchmarks.

Image par l'auteur

Pourquoi l'intégrité des benchmarks est importante pour la sécurité de la blockchain

Un facteur critique façonnant l'adoption de l'intelligence artificielle

Un benchmark qui fournit une mesure de confiance qu'un modèle d'IA particulier sera capable d'identifier et d'exploiter efficacement les vulnérabilités est quelque chose qui peut amener les équipes de développement à l'intégrer dans leurs pipelines d'audit de production.

L'utilisation d'outils d'audit défectueux dans la finance décentralisée (DeFi) peut avoir des conséquences graves, notamment :

- Perte de fonds des utilisateurs

- Insolvabilité du protocole

- Perturbation de la gouvernance

- Atteinte à la réputation

Les contrats intelligents de la blockchain sont généralement déployés et immuables. Les vulnérabilités de sécurité ne peuvent pas être facilement corrigées sans coordination de la gouvernance ou migration. Cela augmente le besoin de classifications précises des vulnérabilités et de métriques d'évaluation solides. Un benchmark peu fiable peut créer un environnement de confiance mal placée dans les produits de sécurité basés sur l'IA.

Le rôle croissant de l'IA dans l'audit des contrats intelligents

Les contrats intelligents sont désormais couramment examinés à l'aide de l'intelligence artificielle (IA). L'utilisation de l'IA à cet égard peut être résumée comme suit :

- Pour pré-analyser le code de programmation et localiser les nouvelles vulnérabilités identifiées,

- Assister les auditeurs humains dans l'analyse du code pour les erreurs fonctionnelles ou logiques,

- Fournir des recommandations pour les correctifs de code si des erreurs sont localisées, et

- Créer des cas de test qui simulent l'exploitation de la vulnérabilité.

L'utilisation efficace de l'intelligence artificielle complétera, mais ne remplacera pas, le travail des auditeurs humains. Nous assistons de plus en plus à l'utilisation de l'intelligence artificielle de cette manière. EVMbench est un effort pour évaluer la performance de l'IA par rapport à des métriques établies dans ce sous-domaine. OpenZeppelin offre une critique de cette méthode d'évaluation, notant le besoin d'un processus d'évaluation sécurisé et utilisable pour les besoins d'étalonnage.

Enfin, pour être efficaces face aux adversaires qui chercheront activement les faiblesses, les processus d'évaluation doivent être conçus de manière à ne pas pouvoir être « truqués ».

Implications plus larges pour l'évaluation de l'IA dans la crypto

La controverse autour d'EVMbench met en lumière un défi persistant lors de l'évaluation de l'IA : distinguer le véritable raisonnement de la reconnaissance de formes.

À mesure que les capacités des grands modèles linguistiques continuent de s'étendre, les benchmarks utilisés pour évaluer leurs capacités s'améliorent généralement aussi. Cependant, sans une isolation et une validation appropriées de l'ensemble de données sous-jacent d'un benchmark, de telles améliorations de capacité pourraient être attribuées à l'exposition aux données d'entraînement plutôt qu'à un développement par une véritable profondeur analytique.

Cette distinction est particulièrement importante lors de l'évaluation de la sécurité des contrats intelligents, car ces types d'exploits impliquent fréquemment des interactions complexes, des contraintes contextuelles et des cas limites économiques. Pour être un benchmark fiable, un benchmark doit prendre en compte :

• La faisabilité de satisfaire aux exigences par une exploitabilité pratique

• Les considérations économiques concernant la faisabilité

• Les contraintes d'exécution liées aux transactions on-chain

• Les surfaces d'attaque qui existent dans le monde physique

Si les niveaux de gravité ou les hypothèses sur les vulnérabilités utilisées dans l'étalonnage sont incorrects, ces benchmarks pourraient induire les développeurs en erreur. Les commentaires d'OpenZeppelin indiquent que l'industrie de la sécurité crypto a les mêmes attentes vis-à-vis des benchmarks basés sur l'IA que celles attendues dans le processus d'audit de protocole.

Une tension constructive entre l'IA et les experts en sécurité

Il convient de noter qu'OpenZeppelin a exprimé son soutien à l'initiative avant de publier sa critique. Cela suggère que l'argument n'est pas contre l'utilisation de l'IA pour l'étalonnage, mais plutôt pour renforcer le processus d'étalonnage de l'IA.

La relation entre la communauté d'audit sécurisé de la blockchain et la communauté de recherche en IA est une tension constructive qui créera :

Travailler ensemble pour développer des définitions, des critères et des normes pour les ensembles de données contribuera à réduire le risque de confiance excessive dans les systèmes automatisés tout en encourageant l'innovation, à mesure que les outils basés sur l'IA continuent de gagner en popularité dans l'espace de développement Web3.

À mesure que les outils d'intelligence artificielle gagnent de plus en plus de terrain dans la communauté de développement Web3, il est devenu de plus en plus important d'établir un processus transparent pour valider leur utilisation.

Conclusion

Les résultats d'EVMbench par OpenZeppelin soulignent à quel point il est difficile d'évaluer la qualité de l'intelligence artificielle utilisée pour évaluer la sécurité dans l'espace de la blockchain. La découverte d'une contamination potentielle des données d'entraînement qui pourrait avoir un impact sur la capacité de l'IA à identifier les vulnérabilités dans les contrats, a généré une conversation très importante autour de l'intégrité des benchmarks utilisés dans cette industrie. Cette industrie gère des centaines de milliards de dollars de valeur qui sont détenus sur la chaîne, il est donc essentiel d'utiliser des méthodes solides lors de toute sorte d'analyse.

Pour que l'intelligence artificielle devienne un contributeur fiable à l'audit des contrats intelligents, tout cadre utilisé pour évaluer l'IA devra également être soumis au type d'évaluation contradictoire que les protocoles sous-jacents, que l'intelligence artificielle aidera à établir, subissent. La convergence de l'IA et de la blockchain devrait générer des gains d'efficacité significatifs, mais comme l'a montré cette étude de cas, l'innovation devra être soumise à des normes rigoureuses pour que ce résultat soit atteint.