OpenZeppelin 指出 OpenAI EVMbench 區塊鏈安全基準方法論的缺陷

OpenZeppelin 指出 OpenAI EVMbench 區塊鏈安全基準方法論的缺陷

OpenZeppelin發現OpenAI的EVMbench存在數據污染和高嚴重性漏洞,質疑AI基準測試在區塊鏈安全領域的可靠性

關於人工智慧(AI)與區塊鏈安全的使用,一場爭議正逐漸浮現。OpenZeppelin 針對 OpenAI 發布的智慧合約新 AI 基準測試(EVMbench)進行了調查,並發現了其方法論以及測試數據污染方面的一些問題。


該基準測試旨在評估 AI 模型在識別、修復和利用以太坊虛擬機(EVM)智慧合約漏洞方面的能力,是由加密貨幣投資公司 Paradigm 與史丹佛大學的研究人員合作的成果。


OpenZeppelin 對這項提議表示支持,但在評估此基準測試提案時,採用了與衡量其他主要 DeFi 協議相同的嚴謹審查標準。這項審查對該基準測試進行了深入檢視,並提出了許多關於未來如何衡量與區塊鏈安全相關的 AI 效能的重要問題。

EVMbench 的設計目的

EVMbench 作為一個基準測試,用於針對 Solidity 程式碼和 EVM 下智慧合約中的實際漏洞來測試 AI 模型,讓使用者能夠:


  1. 識別 Solidity 程式碼中的安全漏洞,
  2. 對這些安全漏洞的嚴重性進行分類,
  3. 建議針對弱化安全的修補程式,
  4. 演示攻擊者將如何利用弱點。


該基準測試的目標是為開發者提供一個客觀的衡量標準,以評估在財務風險高昂、利用區塊鏈可能導致不可估量損失的情況下,他們的程式碼能如何有效地保護基於區塊鏈的解決方案。


隨著 AI 在審計流程中的應用日益增長,這些基準測試可能會影響開發團隊選擇用於審計/協議安全的 AI 工具。


然而,在高風險/零和環境中比較 AI,需要 AI 基準測試具有高度的方法學嚴謹性;


圖片來源:作者

OpenZeppelin 的審查流程

根據 OpenZeppelin 的一位代表表示,該公司選擇以與審計大型去中心化金融(DeFi)協議相同的通用程序來審查 EVMbench。


OpenZeppelin 已完成許多專案的審計,包括 Aave、Lido 和 Uniswap,這些專案都處理著價值數十億美元的交易。


OpenZeppelin 表示,其目的並非挑戰這項倡議;而是為了確保基於 AI 的安全聲明,能由公正且嚴謹的統計方法所支持。


該公司公開聲明並在與大眾的討論中指出,將影響區塊鏈專案安全決策的人工智慧基準測試,必須通過對抗性測試。

關鍵問題一:訓練數據污染

我的研究發現表明,訓練數據污染帶來了相當大的風險。

當用於評估機器學習(ML)算法性能的基準數據集,與用於訓練算法的數據部分或完全重疊時,就會發生污染。這種重疊將導致性能指標虛高。


在 EVMbench 的背景下,存在關於數據污染的擔憂。

如果基準測試數據集中包含的任何漏洞,存在於廣泛可用的公共儲存庫(例如 GitHub)或其他已發表的研​​究中,那麼高度先進的機器學習算法很有可能已經記住了這些模式(即,學會了記憶訓練數據與相應性能之間的關聯)。


這將削弱 EVMbench 基準測試作為衡量算法推理能力的有效性。

推理能力在區塊鏈安全領域至關重要,因為該領域存在一個對抗性創造的環境,在此環境下,依賴解釋記憶數據(即回憶)比展示分析推理(即邏輯)的一致應用困難得多。

關鍵問題二:漏洞分類錯誤

OpenZeppelin 在其關於漏洞分類的第二個主要關切中指出,似乎有許多被歸類為極高嚴重性的問題,實際上無法被實用性地利用。他們向我們表示,其中至少有四個高嚴重性分類確實無效,因為在實際區塊鏈條件下,這些漏洞實際上無法被利用。


嚴重性分類系統的重要性在於:


• 嚴重性分類有助於優先解決最重要的問題

• 嚴重性分類影響模型分數

• 公眾對 AI 能力的看法將受嚴重性分類影響


如果一個模型正確地將一個無法利用的問題降級處理,但該問題卻被賦予了高嚴重性,那麼該模型可能會因此受到不公平的懲罰。另一方面,一個模型可能只是標記了更多的問題,卻無法判斷這些問題是否可被利用,反而可能獲得更高的分數。


這些差異也削弱了基準測試的可靠性。

圖片來源:作者

基準測試的完整性為何對區塊鏈安全至關重要

影響人工智慧採用的關鍵因素


一個能提供信心指標,表明特定 AI 模型將能有效識別並利用漏洞的基準測試,是促使開發團隊將其納入生產審計流程的關鍵。


在去中心化金融(DeFi)中使用有缺陷的審計工具,可能會導致嚴重的後果,包括:


- 用戶資金損失

- 協議破產

- 治理中斷

- 聲譽受損


區塊鏈智慧合約通常一旦部署便不可篡改。若無治理協調或遷移,安全漏洞難以輕易修補。這增加了對準確漏洞分類和健全評估指標的需求。不可靠的基準測試可能導致人們對 AI 驅動的安全產品產生錯誤的信任。

AI 在智慧合約審計中日益重要的角色

智慧合約現在普遍透過人工智慧(AI)進行審查。AI 在這方面的應用可以總結如下:


- 預掃描程式碼並找出已識別的新漏洞,

- 協助人工審計師分析程式碼中的功能或邏輯錯誤,

- 如果發現錯誤,提供程式碼修補建議,以及

- 建立模擬漏洞利用的測試案例。


人工智慧的有效應用將補充而非取代人工審計師的工作。我們越來越多地看到人工智慧以這種方式被使用。EVMbench 旨在評估 AI 在此子領域中針對既定指標的表現。OpenZeppelin 對這種評估方法提出了批評,並指出需要為基準測試目的設計一個安全且實用的評估流程。


最後,為了有效應對會積極尋找弱點的對手,評估流程的設計必須使其無法被「操弄」。

AI 在加密貨幣領域評估的更廣泛影響

圍繞 EVMbench 的爭議突顯了評估 AI 時的一個持續挑戰:區分真正的推理能力和模式識別能力。


隨著大型語言模型能力的持續擴展,用於評估其能力的基準測試通常也會隨之改進。然而,如果未能適當地隔離並驗證基準測試的基礎數據集,這些能力的提升可能僅歸因於接觸了訓練數據,而非源於真正的分析深度。


這種區分在評估智慧合約的安全性時尤為重要,因為這些類型的漏洞利用頻繁涉及複雜的互動、情境限制和經濟邊緣案例。為了成為一個可靠的基準測試,它必須:


• 透過實際可利用性來滿足要求的可行性

• 關於可行性的經濟考量

• 與鏈上交易相關的執行限制

• 存在於實體世界的攻擊面


如果基準測試中使用的嚴重性級別或對漏洞的假設不正確,這些基準測試可能會誤導開發者。OpenZeppelin 的評論表明,加密安全行業對基於 AI 的基準測試抱持著與協議審計流程中相同的期望。

AI 與安全專家之間的建設性張力

值得注意的是,OpenZeppelin 在發布其批評之前,已對該倡議表達了支持。這表明該論點並非反對使用 AI 進行基準測試,而是旨在強化 AI 基準測試的過程。


區塊鏈安全審計社群與 AI 研究社群之間的相互關係是一種建設性的張力,這將產生:


共同努力為數據集制定定義、標準和規範,將有助於降低對自動化系統過度自信的風險,同時鼓勵創新,因為基於 AI 的工具在 Web3 開發領域的普及度持續上升。


隨著人工智慧工具在 Web3 開發社群中獲得越來越多的關注,建立一個透明的驗證流程來確認其使用變得日益重要。

結論

OpenZeppelin 對 EVMbench 的評估結果,凸顯了評估用於區塊鏈安全評估的人工智慧品質是多麼具有挑戰性。發現可能污染訓練數據、進而影響 AI 識別合約漏洞能力的問題,引發了業界對基準測試完整性的重要討論。鑑於此行業管理著鏈上數千億美元的資產價值,因此在進行任何形式的分析時,採用健全的方法至關重要。


要使人工智慧成為審計智慧合約的可靠貢獻者,任何用於評估 AI 的框架,都必須經受與 AI 將協助建立的底層協議所接受的對抗性評估相同類型的審查。AI 和區塊鏈的融合預計將帶來顯著的效率,但正如本案例研究所示,為了實現這一成果,創新將需要符合嚴格的標準。

參考資料

OpenZeppelin X 上關於 EVMbench 審查的貼文

OpenAI 與 Paradigm 的 EVMbench 發布公告

OpenZeppelin 安全審計方法論文件

以太坊智慧合約安全最佳實踐文件

關於 AI 基準測試數據污染與評估偏差的學術研究

所有觀點均為作者個人意見,不構成投資建議。

最新文章

貪婪與恐懼指數

去交易
26
恐懼
您認為當前市場情緒是?
+78.57%+21.42%
現貨交易合約交易
暫無數據