OpenZeppelin Sinaliza Falhas Metodológicas no Benchmark de Segurança Blockchain EVMbench da OpenAI

Existe uma controvérsia a surgir relativamente ao uso de IA e à segurança da blockchain. A OpenZeppelin analisou os novos benchmarks de IA emitidos pela OpenAI sobre contratos inteligentes (EVMbench) e encontrou alguns problemas com a metodologia, bem como contaminação dos dados que estão a ser testados.

Concebido para avaliar o quão bem os modelos de IA conseguem identificar, remediar e explorar vulnerabilidades em contratos inteligentes da Máquina Virtual Ethereum, o benchmark é o resultado de uma colaboração entre a empresa de investimento em cripto Paradigm e investigadores da Universidade de Stanford.

A OpenZeppelin expressou apoio à proposta, mas usou o mesmo escrutínio aplicado à medição de outros grandes protocolos DeFi ao fazer o mesmo com esta proposta de benchmark. Isto levou a um exame do benchmark que levantou inúmeras questões importantes sobre como mediremos o desempenho da IA relacionado com a segurança da blockchain no futuro.

Para Que Serve o EVMbench

O EVMbench serve como um benchmark para testar modelos de IA contra vulnerabilidades reais em contratos inteligentes sob código Solidity e EVM, permitindo-lhe:

Identificar vulnerabilidades de segurança no código Solidity,
Classificar a gravidade dessas vulnerabilidades de segurança,
Recomendar correções para segurança enfraquecida,
Demonstrar como um atacante exploraria uma fraqueza.

O objetivo do benchmark é fornecer aos desenvolvedores uma medição objetiva da eficácia com que o seu código irá proteger uma solução baseada em blockchain quando os riscos financeiros são altos e a exploração da blockchain pode resultar em perdas imensuráveis.

Com o crescente uso de IA nos processos de auditoria, estes benchmarks podem impactar a seleção de ferramentas de IA pelas equipas de desenvolvimento para segurança de auditoria/protocolo.

No entanto; comparar IA em ambientes de alto risco/sem ganhos requer um alto grau de disciplina metodológica na avaliação de IA;

Imagem do Autor

Processo de Revisão da OpenZeppelin

De acordo com um representante da OpenZeppelin, a empresa optou por rever o EVMbench seguindo os mesmos procedimentos gerais utilizados para auditar grandes protocolos de finanças descentralizadas.

A OpenZeppelin concluiu auditorias em muitos projetos, incluindo Aave, Lido e Uniswap, que processam milhares de milhões de dólares em transações.

A OpenZeppelin afirmou que o seu propósito não era desafiar esta iniciativa; antes, era garantir que as alegações de segurança baseadas em IA são apoiadas por uma metodologia estatística arbitrária e rigorosa.

A empresa declarou publicamente e em discussões com o público que os benchmarks de inteligência artificial que irão impactar as decisões relativas à segurança para projetos de blockchain devem passar por um teste adversarial.

Questão Chave 1: Contaminação dos Dados de Treinamento

Os resultados da minha pesquisa demonstram que a contaminação dos dados de treinamento apresenta um risco considerável.

A contaminação ocorre quando o conjunto de dados do benchmark usado para avaliar o desempenho de algoritmos de aprendizado de máquina (ML) se sobrepõe parcial ou completamente aos dados usados para treinar os algoritmos. Essa sobreposição levará a métricas de desempenho inflacionadas.

No contexto do EVMbench, há preocupação com a contaminação.

Se quaisquer vulnerabilidades contidas nos conjuntos de dados de benchmarking estivessem presentes em repositórios públicos amplamente disponíveis (por exemplo, GitHub) ou em outros estudos publicados, existe a possibilidade de que algoritmos de ML altamente avançados tenham memorizado esses padrões (ou seja, aprendido a memorizar a associação entre os dados de treinamento e os desempenhos correspondentes).

Isso compromete a credibilidade dos benchmarks do EVMbench como uma medida válida da capacidade de raciocínio de um algoritmo.

O raciocínio é crítico no mundo da segurança da blockchain, onde existe um ambiente de criatividade adversarial em que a confiança na interpretação de dados memorizados (ou seja, recuperação) é muito mais difícil do que demonstrar aplicações consistentes de raciocínio analítico (ou seja, lógica).

Questão Chave 2: Erros de Classificação de Vulnerabilidades

A OpenZeppelin declarou, na sua segunda preocupação principal relativamente à classificação de vulnerabilidades, que parecem existir inúmeras questões classificadas como de gravidade muito alta que não podem ser exploradas de forma prática. Indicou-nos que pelo menos quatro destas classificações de alta gravidade são de facto inválidas porque, sob condições reais de blockchain, estas vulnerabilidades não podem ser realmente exploradas.

A importância do sistema de classificação de gravidade é que:

• As classificações de gravidade ajudam a focar os recursos na correção dos problemas mais importantes primeiro

• As classificações de gravidade impactam as pontuações do modelo

• A percepção pública da capacidade da IA será moldada pelas classificações de gravidade

Se um modelo estiver a despriorizar corretamente uma questão não explorável, mas essa questão tiver sido atribuída uma alta gravidade, então esse modelo poderá ser injustamente penalizado por isso. Por outro lado, um modelo pode ser capaz de simplesmente sinalizar muito mais questões sem conseguir determinar se são exploráveis ou não e poderá receber uma pontuação mais alta.

Essas discrepâncias também comprometem a confiabilidade dos benchmarks.

Imagem do Autor

Por Que a Integridade dos Benchmarks Importa para a Segurança da Blockchain

Um Fator Crítico Que Molda a Adoção da Inteligência Artificial

Um benchmark que fornece uma medida de confiança de que um determinado modelo de IA será capaz de identificar e explorar vulnerabilidades de forma eficaz é algo que pode levar as equipas de desenvolvimento a incorporá-lo nas suas pipelines de auditoria de produção.

Pode haver consequências graves para o uso de ferramentas de auditoria falhas em Finanças Descentralizadas (DeFi) que incluem:

- Perda de fundos do utilizador

- Insolvência do protocolo

- Interrupção da governança

- Dano à reputação

Os contratos inteligentes da Blockchain são tipicamente implantados e imutáveis. As vulnerabilidades de segurança não podem ser facilmente corrigidas sem coordenação de governança ou migração. Isso aumenta a necessidade de classificações de vulnerabilidades precisas e métricas de avaliação sólidas. Um benchmark não confiável pode criar um ambiente de confiança equivocada em produtos de segurança impulsionados por IA.

O Crescente Papel da IA na Auditoria de Contratos Inteligentes

Os contratos inteligentes são agora comumente revistos usando inteligência artificial (IA). O uso da IA neste aspeto pode ser resumido da seguinte forma:

- Para pré-digitalizar o código de programação e localizar novas vulnerabilidades identificadas,

- Auxiliar auditores humanos na análise do código para erros funcionais ou lógicos,

- Fornecer recomendações para patches de código se forem localizados erros, e

- Criar casos de teste que simulam a exploração da vulnerabilidade.

O uso eficaz da inteligência artificial complementará, mas não substituirá, o trabalho dos auditores humanos. Cada vez mais, estamos a ver o uso da inteligência artificial desta forma. O EVMbench é um esforço para avaliar o desempenho da IA em relação a métricas estabelecidas neste subdomínio. A OpenZeppelin oferece uma crítica a este método de avaliação, notando a necessidade de um processo de avaliação seguro e utilizável para fins de benchmarking.

Por último, para ser eficaz em relação a adversários que procurarão ativamente fraquezas, os processos de avaliação devem ser concebidos de forma a que não possam ser 'manipulados'.

Implicações Mais Amplas para a Avaliação de IA em Cripto

A controvérsia em torno do EVMbench destaca um desafio contínuo na avaliação da IA: distinguir entre o verdadeiro raciocínio e o reconhecimento de padrões.

À medida que as capacidades dos grandes modelos de linguagem continuam a expandir-se, os benchmarks utilizados para avaliar as suas capacidades tipicamente também melhoram. No entanto, sem isolar e validar adequadamente o conjunto de dados subjacente de um benchmark, tais melhorias de capacidade poderiam ser atribuídas à exposição a dados de treinamento, em vez de terem sido desenvolvidas por verdadeira profundidade analítica.

Esta distinção é especialmente importante ao avaliar a segurança de contratos inteligentes, pois esses tipos de explorações frequentemente envolvem interações complexas, restrições contextuais e casos extremos económicos. Para ser um benchmark fiável, um benchmark deve ter em conta:

• Viabilidade de Cumprir Requisitos Através da Exploração Prática

• Considerações Económicas sobre a Viabilidade

• Restrições de Execução Relacionadas com Transações On-Chain

• Superfícies de Ataque Que Existem no Mundo Físico

Se os níveis de gravidade ou as suposições sobre as vulnerabilidades usadas na avaliação estiverem incorretos, esses benchmarks podem levar os desenvolvedores a erros. Os comentários da OpenZeppelin indicam que a indústria de segurança cripto tem as mesmas expectativas de benchmarks baseados em IA que são esperadas no processo de auditoria de protocolo.

Uma Tensão Construtiva Entre Especialistas em IA e Segurança

É de notar que a OpenZeppelin expressou o seu apoio à iniciativa antes de publicar a sua crítica. Isto sugere que o argumento não é contra o uso de IA para benchmarking, mas sim para fortalecer o processo de avaliação da IA.

A inter-relação entre a comunidade de auditoria segura da blockchain e a comunidade de pesquisa de IA é uma tensão construtiva que irá criar:

Trabalhar em conjunto para desenvolver definições, critérios e padrões para conjuntos de dados ajudará a reduzir a chance de confiança excessiva em sistemas automatizados, ao mesmo tempo que encoraja a inovação, à medida que as ferramentas baseadas em IA continuam a crescer em popularidade no espaço de desenvolvimento Web3.

À medida que as ferramentas de inteligência artificial ganham cada vez mais tração na comunidade de desenvolvimento Web3, tornou-se cada vez mais importante estabelecer um processo transparente para validar o seu uso.

Conclusão

Os resultados do EVMbench, apresentados pela OpenZeppelin, destacam o quão desafiador é avaliar a qualidade da inteligência artificial usada para avaliar a segurança no espaço da blockchain. A descoberta de potencial contaminação de dados de treinamento, que poderia impactar a capacidade da IA de identificar vulnerabilidades em contratos, gerou uma conversa muito importante sobre a integridade dos benchmarks usados nesta indústria. Esta indústria gere centenas de milhares de milhões de dólares em valor que é mantido na cadeia, portanto, usar métodos sólidos ao realizar qualquer tipo de análise é crítico.

Para que a inteligência artificial se torne um contribuinte fiável para a auditoria de contratos inteligentes, qualquer estrutura usada para avaliar a IA também terá de ser sujeita ao tipo de avaliação adversarial que os protocolos subjacentes, que a inteligência artificial ajudará a estabelecer, exigem. Espera-se que a convergência de IA e blockchain produza eficiências significativas, mas, como este estudo de caso demonstrou, a inovação terá de ser sujeita a padrões rigorosos para que este resultado seja alcançado.