OpenZeppelin Señala Deficiencias Metodológicas en el Benchmark de Seguridad Blockchain EVMbench de OpenAI

Se está abriendo una controversia en torno al uso de la IA y la seguridad blockchain. OpenZeppelin ha investigado los nuevos benchmarks de IA emitidos por OpenAI en relación con los contratos inteligentes (EVMbench), y ha encontrado algunos problemas con la metodología, así como con la contaminación de los datos que se están probando.

Diseñado para evaluar la capacidad de los modelos de IA para identificar, remediar y explotar vulnerabilidades en contratos inteligentes de la Máquina Virtual de Ethereum, el benchmark es el resultado de una colaboración entre la empresa de inversión en criptoactivos Paradigm y los investigadores de la Universidad de Stanford.

OpenZeppelin expresó su apoyo a la propuesta, pero aplicó el mismo escrutinio utilizado para medir otros protocolos DeFi importantes al hacer lo mismo con esta propuesta de benchmark. Esto llevó a un examen del benchmark que planteó numerosas preguntas importantes sobre cómo mediremos el rendimiento de la IA relacionado con la seguridad blockchain en el futuro.

Para qué está diseñado EVMbench

EVMbench sirve como un benchmark para probar modelos de IA contra vulnerabilidades reales en contratos inteligentes bajo código Solidity y EVM, permitiendo:

Identificar vulnerabilidades de seguridad en el código Solidity,
Clasificar la gravedad de esas vulnerabilidades de seguridad,
Recomendar parches para seguridad debilitada,
Demostrar cómo un atacante explotaría una debilidad.

El objetivo del benchmark es proporcionar a los desarrolladores una medida objetiva de la eficacia con la que su código asegurará una solución basada en blockchain cuando los intereses financieros son altos y la explotación de la blockchain puede resultar en pérdidas inmensurables.

Con el creciente uso de la IA en los procesos de auditoría, estos benchmarks podrían influir en la selección de herramientas de IA por parte de los equipos de desarrollo para la seguridad de auditoría/protocolo.

Sin embargo; comparar la IA en entornos de alto riesgo/sin ganancias requiere un alto grado de disciplina metodológica en el benchmarking de la IA;

Imagen por el Autor

Proceso de Revisión de OpenZeppelin

Según un representante de OpenZeppelin, la compañía ha optado por revisar EVMbench siguiendo los mismos procedimientos generales que los utilizados para auditar grandes protocolos de finanzas descentralizadas.

OpenZeppelin ha completado auditorías en muchos proyectos, incluidos Aave, Lido y Uniswap, que procesan miles de millones de dólares en transacciones.

OpenZeppelin afirmó que su propósito no era desafiar esta iniciativa; más bien, era asegurar que las afirmaciones de seguridad basadas en IA estuvieran respaldadas por una metodología estadística rigurosa y no arbitraria.

La compañía declaró públicamente y en discusiones con el público que los benchmarks de inteligencia artificial que impactarán las decisiones con respecto a la seguridad de los proyectos blockchain deben pasar una prueba adversaria.

Problema Clave 1: Contaminación de Datos de Entrenamiento

Los hallazgos de mi investigación demuestran que la contaminación de los datos de entrenamiento presenta un riesgo considerable.

La contaminación ocurre cuando el conjunto de datos de benchmark utilizado para evaluar el rendimiento de los algoritmos de aprendizaje automático (ML) se superpone parcial o completamente con los datos utilizados para entrenar los algoritmos. Esta superposición conducirá a métricas de rendimiento infladas.

En el contexto de EVMbench, existe preocupación por la contaminación.

Si alguna vulnerabilidad contenida en los conjuntos de datos de benchmarking estuviera presente en repositorios públicos ampliamente disponibles (por ejemplo, GitHub) o en otros estudios publicados, existe la posibilidad de que algoritmos de ML altamente avanzados hayan memorizado esos patrones (es decir, hayan aprendido a memorizar la asociación entre los datos de entrenamiento y los rendimientos correspondientes).

Esto socava la credibilidad de los benchmarks de EVMbench como una medida válida de la capacidad de razonamiento de un algoritmo.

El razonamiento es fundamental en el mundo de la seguridad blockchain, donde existe un entorno de creatividad adversaria en el que la dependencia de la interpretación de datos memorizados (es decir, el recuerdo) es mucho más difícil que la demostración de aplicaciones consistentes de razonamiento analítico (es decir, la lógica).

Problema Clave 2: Errores en la Clasificación de Vulnerabilidades

OpenZeppelin ha declarado en su segunda principal preocupación con respecto a la clasificación de vulnerabilidades que parecen existir numerosos problemas clasificados como de muy alta gravedad que no pueden ser explotados de manera práctica. Nos indicaron que al menos cuatro de estas clasificaciones de alta gravedad son, de hecho, inválidas porque, bajo condiciones reales de blockchain, estas vulnerabilidades no pueden ser explotadas.

La importancia del sistema de clasificación de gravedad radica en que:

• Las clasificaciones de gravedad ayudan a enfocar los recursos en solucionar los problemas más importantes primero

• Las clasificaciones de gravedad afectan las puntuaciones del modelo

• La percepción pública de la capacidad de la IA será moldeada por las clasificaciones de gravedad

Si un modelo está despriorizando correctamente un problema no explotable, pero a ese problema se le ha asignado una alta gravedad, entonces ese modelo podría ser penalizado injustamente por hacerlo. Por otro lado, un modelo podría simplemente señalar muchos más problemas sin poder determinar si son explotables o no y podría recibir una puntuación más alta.

Estas discrepancias también socavan la fiabilidad de los benchmarks.

Imagen por el Autor

Por qué la Integridad de los Benchmarks Importa para la Seguridad Blockchain

Un Factor Crítico que Moldea la Adopción de la Inteligencia Artificial

Un benchmark que proporciona una medida de confianza de que un modelo de IA particular será capaz de identificar y explotar eficazmente las vulnerabilidades es algo que puede llevar a los equipos de desarrollo a incorporarlo en sus tuberías de auditoría de producción.

Puede haber graves consecuencias por el uso de herramientas de auditoría defectuosas dentro de las Finanzas Descentralizadas (DeFi) que incluyen:

- Pérdida de fondos de usuarios

- Insolvencia del protocolo

- Interrupción de la gobernanza

- Daño a la reputación

Los contratos inteligentes de blockchain suelen desplegarse y ser inmutables. Las vulnerabilidades de seguridad no pueden parchearse fácilmente sin la coordinación de la gobernanza o la migración. Esto aumenta la necesidad de clasificaciones precisas de las vulnerabilidades y métricas de evaluación sólidas. Un benchmark poco fiable puede crear un entorno de confianza equivocada en los productos de seguridad impulsados por IA.

El Creciente Papel de la IA en la Auditoría de Contratos Inteligentes

Los contratos inteligentes se revisan ahora comúnmente utilizando inteligencia artificial (IA). El uso de la IA a este respecto se puede resumir de la siguiente manera:

- Para pre-escanear código de programación y localizar nuevas vulnerabilidades identificadas,

- Ayudar a los auditores humanos a analizar el código en busca de errores funcionales o lógicos,

- Proporcionar recomendaciones para parches de código si se localizan errores, y

- Crear casos de prueba que simulen la explotación de la vulnerabilidad.

El uso efectivo de la inteligencia artificial complementará, pero no reemplazará, el trabajo de los auditores humanos. Cada vez más, estamos viendo el uso de la inteligencia artificial de esta manera. EVMbench es un esfuerzo para evaluar el rendimiento de la IA frente a métricas establecidas en este subdominio. OpenZeppelin ofrece una crítica de este método de evaluación, señalando la necesidad de un proceso de evaluación seguro y diseñado para ser utilizable con fines de benchmarking.

Por último, para ser efectivos con respecto a los adversarios que buscarán activamente debilidades, los procesos de evaluación deben diseñarse de manera que no puedan ser 'manipulados'.

Implicaciones Más Amplias para la Evaluación de la IA en Cripto

La controversia en torno a EVMbench destaca un desafío constante al evaluar la IA: distinguir entre el verdadero razonamiento y el reconocimiento de patrones.

A medida que las capacidades de los grandes modelos de lenguaje continúan expandiéndose, los benchmarks utilizados para evaluar sus capacidades también suelen mejorar. Sin embargo, sin aislar y validar adecuadamente el conjunto de datos subyacente de un benchmark, tales mejoras de capacidad podrían atribuirse a haber sido expuestos a datos de entrenamiento en lugar de haber sido desarrollados por una verdadera profundidad analítica.

Esta distinción es especialmente importante al evaluar la seguridad de los contratos inteligentes, ya que este tipo de exploits con frecuencia implican interacciones complejas, restricciones contextuales y casos extremos económicos. Para ser un benchmark fiable, un benchmark debe:

• Viabilidad de Cumplir los Requisitos mediante la Explotabilidad Práctica

• Consideraciones Económicas sobre la Viabilidad

• Restricciones de Ejecución Relacionadas con Transacciones en Cadena

• Superficies de Ataque que Existen en el Mundo Físico

Si los niveles de gravedad o las suposiciones sobre las vulnerabilidades utilizadas en el benchmarking fueran incorrectos, esos benchmarks podrían desviar a los desarrolladores. Los comentarios de OpenZeppelin indican que la industria de seguridad criptográfica tiene las mismas expectativas de los benchmarks basados en IA que las que se esperan dentro del proceso de auditoría de protocolos.

Una Tensión Constructiva entre Expertos en IA y Seguridad

Cabe señalar que OpenZeppelin expresó su apoyo a la iniciativa antes de publicar su crítica. Esto sugiere que el argumento no es contra el uso de la IA para el benchmarking, sino para fortalecer el proceso de benchmarking de la IA.

La interrelación entre la comunidad de auditoría de seguridad blockchain y la comunidad de investigación de IA es una tensión constructiva que creará:

Trabajar juntos para desarrollar definiciones, criterios y estándares para los conjuntos de datos ayudará a reducir la probabilidad de una confianza excesiva en los sistemas automatizados, al tiempo que fomentará la innovación, a medida que las herramientas basadas en IA continúan ganando popularidad en el espacio de desarrollo Web3.

A medida que las herramientas de inteligencia artificial ganan cada vez más tracción en la comunidad de desarrollo Web3, se ha vuelto cada vez más importante establecer un proceso transparente para validar su uso.

Conclusión

Los resultados de EVMbench de OpenZeppelin resaltan lo desafiante que es evaluar la calidad de la inteligencia artificial utilizada para evaluar la seguridad en el espacio blockchain. El descubrimiento de una posible contaminación de los datos de entrenamiento que podría afectar la capacidad de la IA para identificar vulnerabilidades en los contratos, ha generado una conversación muy importante sobre la integridad de los benchmarks utilizados en esta industria. Esta industria gestiona cientos de miles de millones de dólares en valor que se mantienen en la cadena, por lo que utilizar métodos sólidos al realizar cualquier tipo de análisis es fundamental.

Para que la inteligencia artificial se convierta en un contribuyente fiable a la auditoría de contratos inteligentes, cualquier marco utilizado para evaluar la IA también deberá estar sujeto al tipo de evaluación adversaria que los protocolos subyacentes que la inteligencia artificial ayudará a establecer. Se espera que la convergencia de la IA y blockchain genere eficiencias significativas, pero como ha demostrado este estudio de caso, la innovación deberá estar sujeta a estándares exigentes para que este resultado se materialice.