OpenZeppelin 指出 OpenAI EVMbench 區塊鏈安全基準方法論的缺陷

關於人工智慧（AI）與區塊鏈安全的使用，一場爭議正逐漸浮現。OpenZeppelin 針對 OpenAI 發布的智慧合約新 AI 基準測試（EVMbench）進行了調查，並發現了其方法論以及測試數據污染方面的一些問題。

該基準測試旨在評估 AI 模型在識別、修復和利用以太坊虛擬機（EVM）智慧合約漏洞方面的能力，是由加密貨幣投資公司 Paradigm 與史丹佛大學的研究人員合作的成果。

OpenZeppelin 對這項提議表示支持，但在評估此基準測試提案時，採用了與衡量其他主要 DeFi 協議相同的嚴謹審查標準。這項審查對該基準測試進行了深入檢視，並提出了許多關於未來如何衡量與區塊鏈安全相關的 AI 效能的重要問題。

EVMbench 的設計目的

EVMbench 作為一個基準測試，用於針對 Solidity 程式碼和 EVM 下智慧合約中的實際漏洞來測試 AI 模型，讓使用者能夠：

識別 Solidity 程式碼中的安全漏洞，
對這些安全漏洞的嚴重性進行分類，
建議針對弱化安全的修補程式，
演示攻擊者將如何利用弱點。

該基準測試的目標是為開發者提供一個客觀的衡量標準，以評估在財務風險高昂、利用區塊鏈可能導致不可估量損失的情況下，他們的程式碼能如何有效地保護基於區塊鏈的解決方案。

隨著 AI 在審計流程中的應用日益增長，這些基準測試可能會影響開發團隊選擇用於審計/協議安全的 AI 工具。

然而，在高風險/零和環境中比較 AI，需要 AI 基準測試具有高度的方法學嚴謹性；

圖片來源：作者

OpenZeppelin 的審查流程

根據 OpenZeppelin 的一位代表表示，該公司選擇以與審計大型去中心化金融（DeFi）協議相同的通用程序來審查 EVMbench。

OpenZeppelin 已完成許多專案的審計，包括 Aave、Lido 和 Uniswap，這些專案都處理著價值數十億美元的交易。

OpenZeppelin 表示，其目的並非挑戰這項倡議；而是為了確保基於 AI 的安全聲明，能由公正且嚴謹的統計方法所支持。

該公司公開聲明並在與大眾的討論中指出，將影響區塊鏈專案安全決策的人工智慧基準測試，必須通過對抗性測試。

關鍵問題一：訓練數據污染

我的研究發現表明，訓練數據污染帶來了相當大的風險。

當用於評估機器學習（ML）算法性能的基準數據集，與用於訓練算法的數據部分或完全重疊時，就會發生污染。這種重疊將導致性能指標虛高。

在 EVMbench 的背景下，存在關於數據污染的擔憂。

如果基準測試數據集中包含的任何漏洞，存在於廣泛可用的公共儲存庫（例如 GitHub）或其他已發表的研究中，那麼高度先進的機器學習算法很有可能已經記住了這些模式（即，學會了記憶訓練數據與相應性能之間的關聯）。

這將削弱 EVMbench 基準測試作為衡量算法推理能力的有效性。

推理能力在區塊鏈安全領域至關重要，因為該領域存在一個對抗性創造的環境，在此環境下，依賴解釋記憶數據（即回憶）比展示分析推理（即邏輯）的一致應用困難得多。

關鍵問題二：漏洞分類錯誤

OpenZeppelin 在其關於漏洞分類的第二個主要關切中指出，似乎有許多被歸類為極高嚴重性的問題，實際上無法被實用性地利用。他們向我們表示，其中至少有四個高嚴重性分類確實無效，因為在實際區塊鏈條件下，這些漏洞實際上無法被利用。

嚴重性分類系統的重要性在於：

• 嚴重性分類有助於優先解決最重要的問題

• 嚴重性分類影響模型分數

• 公眾對 AI 能力的看法將受嚴重性分類影響

如果一個模型正確地將一個無法利用的問題降級處理，但該問題卻被賦予了高嚴重性，那麼該模型可能會因此受到不公平的懲罰。另一方面，一個模型可能只是標記了更多的問題，卻無法判斷這些問題是否可被利用，反而可能獲得更高的分數。

這些差異也削弱了基準測試的可靠性。

圖片來源：作者

基準測試的完整性為何對區塊鏈安全至關重要

影響人工智慧採用的關鍵因素

一個能提供信心指標，表明特定 AI 模型將能有效識別並利用漏洞的基準測試，是促使開發團隊將其納入生產審計流程的關鍵。

在去中心化金融（DeFi）中使用有缺陷的審計工具，可能會導致嚴重的後果，包括：

- 用戶資金損失

- 協議破產

- 治理中斷

- 聲譽受損

區塊鏈智慧合約通常一旦部署便不可篡改。若無治理協調或遷移，安全漏洞難以輕易修補。這增加了對準確漏洞分類和健全評估指標的需求。不可靠的基準測試可能導致人們對 AI 驅動的安全產品產生錯誤的信任。

AI 在智慧合約審計中日益重要的角色

智慧合約現在普遍透過人工智慧（AI）進行審查。AI 在這方面的應用可以總結如下：

- 預掃描程式碼並找出已識別的新漏洞，

- 協助人工審計師分析程式碼中的功能或邏輯錯誤，

- 如果發現錯誤，提供程式碼修補建議，以及

- 建立模擬漏洞利用的測試案例。

人工智慧的有效應用將補充而非取代人工審計師的工作。我們越來越多地看到人工智慧以這種方式被使用。EVMbench 旨在評估 AI 在此子領域中針對既定指標的表現。OpenZeppelin 對這種評估方法提出了批評，並指出需要為基準測試目的設計一個安全且實用的評估流程。

最後，為了有效應對會積極尋找弱點的對手，評估流程的設計必須使其無法被「操弄」。

AI 在加密貨幣領域評估的更廣泛影響

圍繞 EVMbench 的爭議突顯了評估 AI 時的一個持續挑戰：區分真正的推理能力和模式識別能力。

隨著大型語言模型能力的持續擴展，用於評估其能力的基準測試通常也會隨之改進。然而，如果未能適當地隔離並驗證基準測試的基礎數據集，這些能力的提升可能僅歸因於接觸了訓練數據，而非源於真正的分析深度。

這種區分在評估智慧合約的安全性時尤為重要，因為這些類型的漏洞利用頻繁涉及複雜的互動、情境限制和經濟邊緣案例。為了成為一個可靠的基準測試，它必須：

• 透過實際可利用性來滿足要求的可行性

• 關於可行性的經濟考量

• 與鏈上交易相關的執行限制

• 存在於實體世界的攻擊面

如果基準測試中使用的嚴重性級別或對漏洞的假設不正確，這些基準測試可能會誤導開發者。OpenZeppelin 的評論表明，加密安全行業對基於 AI 的基準測試抱持著與協議審計流程中相同的期望。

AI 與安全專家之間的建設性張力

值得注意的是，OpenZeppelin 在發布其批評之前，已對該倡議表達了支持。這表明該論點並非反對使用 AI 進行基準測試，而是旨在強化 AI 基準測試的過程。

區塊鏈安全審計社群與 AI 研究社群之間的相互關係是一種建設性的張力，這將產生：

共同努力為數據集制定定義、標準和規範，將有助於降低對自動化系統過度自信的風險，同時鼓勵創新，因為基於 AI 的工具在 Web3 開發領域的普及度持續上升。

隨著人工智慧工具在 Web3 開發社群中獲得越來越多的關注，建立一個透明的驗證流程來確認其使用變得日益重要。

結論

OpenZeppelin 對 EVMbench 的評估結果，凸顯了評估用於區塊鏈安全評估的人工智慧品質是多麼具有挑戰性。發現可能污染訓練數據、進而影響 AI 識別合約漏洞能力的問題，引發了業界對基準測試完整性的重要討論。鑑於此行業管理著鏈上數千億美元的資產價值，因此在進行任何形式的分析時，採用健全的方法至關重要。

要使人工智慧成為審計智慧合約的可靠貢獻者，任何用於評估 AI 的框架，都必須經受與 AI 將協助建立的底層協議所接受的對抗性評估相同類型的審查。AI 和區塊鏈的融合預計將帶來顯著的效率，但正如本案例研究所示，為了實現這一成果，創新將需要符合嚴格的標準。