OpenZeppelin Menyoroti Kekurangan Metodologis pada EVMbench OpenAI dalam Benchmark Keamanan Blockchain

Telah muncul kontroversi mengenai penggunaan AI dan keamanan blockchain. OpenZeppelin telah menyelidiki tolok ukur AI baru yang dikeluarkan oleh OpenAI terkait kontrak pintar (EVMbench), dan menemukan beberapa masalah dengan metodologi serta kontaminasi data yang diuji.

Dirancang untuk menilai seberapa baik model AI dapat mengidentifikasi, memperbaiki, dan mengeksploitasi kerentanan dalam kontrak pintar Ethereum Virtual Machine, tolok ukur ini adalah hasil kolaborasi antara perusahaan investasi kripto Paradigm dan peneliti dari Stanford University.

OpenZeppelin menyatakan dukungan terhadap proposal tersebut tetapi menggunakan pengawasan yang sama seperti yang digunakan untuk mengukur protokol DeFi utama lainnya saat melakukan hal yang sama dengan proposal tolok ukur ini. Ini mengarah pada pemeriksaan tolok ukur yang menimbulkan banyak pertanyaan penting mengenai bagaimana kita akan mengukur kinerja AI terkait keamanan blockchain di masa depan.

Apa Tujuan EVMbench

EVMbench berfungsi sebagai tolok ukur untuk menguji model AI terhadap kerentanan aktual dalam kontrak pintar di bawah kode Solidity dan EVM, memungkinkan Anda untuk:

Mengidentifikasi kerentanan keamanan dalam kode Solidity,
Mengklasifikasikan tingkat keparahan kerentanan keamanan tersebut,
Merekomendasikan perbaikan (patch) untuk keamanan yang melemah,
Mendemonstrasikan bagaimana penyerang akan mengeksploitasi kelemahan.

Tujuan tolok ukur ini adalah untuk memberikan pengukuran objektif kepada pengembang tentang seberapa efektif kode mereka akan mengamankan solusi berbasis blockchain ketika taruhan finansial tinggi dan eksploitasi blockchain dapat mengakibatkan kerugian tak terukur.

Dengan meningkatnya penggunaan AI dalam proses audit, tolok ukur ini dapat memengaruhi pilihan tim pengembangan terhadap alat AI untuk audit/keamanan protokol.

Namun; membandingkan AI di lingkungan berisiko tinggi/tanpa kemenangan membutuhkan tingkat disiplin metodologis yang tinggi dalam melakukan benchmarking AI;

Gambar oleh Penulis

Proses Peninjauan OpenZeppelin

Menurut perwakilan OpenZeppelin, perusahaan telah memilih untuk meninjau EVMbench mengikuti prosedur umum yang sama seperti yang digunakan untuk mengaudit protokol keuangan terdesentralisasi yang besar.

OpenZeppelin telah menyelesaikan audit pada banyak proyek, termasuk Aave, Lido, dan Uniswap, yang semuanya memproses transaksi senilai miliaran dolar.

OpenZeppelin menyatakan bahwa tujuannya bukan untuk menantang inisiatif ini; melainkan, untuk memastikan bahwa klaim keamanan berdasarkan AI didukung oleh metodologi statistik yang tidak memihak dan ketat.

Perusahaan menyatakan secara publik dan dalam diskusi dengan publik bahwa tolok ukur kecerdasan buatan yang akan memengaruhi keputusan terkait keamanan proyek blockchain harus melewati uji adversarial.

Masalah Utama 1: Kontaminasi Data Pelatihan

Temuan dari penelitian saya menunjukkan bahwa kontaminasi data pelatihan menimbulkan risiko yang signifikan.

Kontaminasi terjadi ketika dataset tolok ukur yang digunakan untuk menilai kinerja algoritma pembelajaran mesin (ML) tumpang tindih sebagian atau seluruhnya dengan data yang digunakan untuk melatih algoritma. Tumpang tindih ini akan menyebabkan metrik kinerja yang meningkat.

Dalam konteks EVMbench, ada kekhawatiran tentang kontaminasi.

Jika ada kerentanan yang terkandung dalam dataset benchmarking yang ada di repositori publik yang tersedia luas (misalnya, GitHub) atau dalam studi lain yang diterbitkan, ada kemungkinan bahwa algoritma ML yang sangat canggih akan menghafal pola-pola tersebut (yaitu, belajar menghafal hubungan antara data pelatihan dan kinerja yang sesuai).

Dengan demikian merongrong kredibilitas tolok ukur EVMbench sebagai ukuran yang valid dari kemampuan penalaran algoritma.

Penalaran sangat penting di dunia keamanan blockchain di mana ada lingkungan kreativitas adversarial di mana ketergantungan pada interpretasi data yang dihafal (yaitu, mengingat kembali) jauh lebih sulit daripada mendemonstrasikan aplikasi penalaran analitis yang konsisten (yaitu, logika).

Masalah Utama 2: Kesalahan Klasifikasi Kerentanan

OpenZeppelin telah menyatakan dalam kekhawatiran utama keduanya mengenai klasifikasi kerentanan bahwa tampaknya ada banyak masalah yang diklasifikasikan sebagai tingkat keparahan sangat tinggi yang tidak dapat dieksploitasi secara praktis. Mereka mengindikasikan kepada kami bahwa setidaknya empat dari klasifikasi tingkat keparahan tinggi ini memang tidak valid karena, dalam kondisi blockchain yang sebenarnya, kerentanan ini sebenarnya tidak dapat dieksploitasi.

Pentingnya sistem klasifikasi tingkat keparahan adalah bahwa:

• Klasifikasi tingkat keparahan membantu memfokuskan sumber daya untuk memperbaiki masalah paling penting terlebih dahulu

• Klasifikasi tingkat keparahan memengaruhi skor model

• Persepsi publik tentang kemampuan AI akan dibentuk oleh klasifikasi tingkat keparahan

Jika sebuah model dengan benar mendeprioritaskan masalah yang tidak dapat dieksploitasi tetapi masalah tersebut telah diberi tingkat keparahan tinggi, maka model tersebut dapat dihukum secara tidak adil. Di sisi lain, sebuah model mungkin dapat menandai lebih banyak masalah tanpa dapat menentukan apakah masalah tersebut dapat dieksploitasi atau tidak dan dapat menerima skor yang lebih tinggi.

Perbedaan ini juga merongrong keandalan tolok ukur.

Gambar oleh Penulis

Mengapa Integritas Tolok Ukur Penting untuk Keamanan Blockchain

Faktor Kritis yang Membentuk Adopsi Kecerdasan Buatan

Tolok ukur yang memberikan ukuran kepercayaan bahwa model AI tertentu akan dapat secara efektif mengidentifikasi dan mengeksploitasi kerentanan adalah sesuatu yang dapat mendorong tim pengembangan untuk menggabungkannya ke dalam jalur audit produksi mereka.

Dapat ada konsekuensi parah untuk menggunakan alat audit yang cacat dalam Keuangan Terdesentralisasi (DeFi) yang meliputi:

- Hilangnya dana pengguna

- Insolvensi protokol

- Gangguan tata kelola

- Kerusakan reputasi

Kontrak pintar blockchain biasanya diterapkan dan tidak dapat diubah. Kerentanan keamanan tidak dapat dengan mudah ditambal tanpa koordinasi tata kelola atau migrasi. Ini meningkatkan kebutuhan akan klasifikasi kerentanan yang akurat dan metrik evaluasi yang tepat. Tolok ukur yang tidak dapat diandalkan dapat menciptakan lingkungan kepercayaan yang salah pada produk keamanan berbasis AI.

Peran AI yang Berkembang dalam Audit Kontrak Pintar

Kontrak pintar kini umumnya ditinjau menggunakan kecerdasan buatan (AI). Penggunaan AI dalam hal ini dapat diringkas sebagai berikut:

- Untuk memindai awal kode pemrograman dan menemukan kerentanan baru yang teridentifikasi,

- Membantu auditor manusia dalam menganalisis kode untuk kesalahan fungsional atau logis,

- Memberikan rekomendasi untuk perbaikan kode jika ditemukan kesalahan, dan

- Membuat kasus uji yang mensimulasikan eksploitasi kerentanan.

Penggunaan kecerdasan buatan yang efektif akan melengkapi, tetapi tidak menggantikan, pekerjaan auditor manusia. Semakin lama, kita melihat penggunaan kecerdasan buatan dengan cara ini. EVMbench adalah upaya untuk mengevaluasi seberapa baik AI berkinerja terhadap metrik yang ditetapkan dalam sub-domain ini. OpenZeppelin menawarkan kritik terhadap metode evaluasi ini, mencatat perlunya proses evaluasi yang aman dan dirancang dengan baik untuk tujuan benchmarking.

Terakhir, agar efektif terhadap musuh yang akan secara aktif mencari kelemahan, proses evaluasi harus dirancang sedemikian rupa sehingga tidak dapat 'diakali'.

Implikasi Lebih Luas untuk Evaluasi AI dalam Kripto

Kontroversi seputar EVMbench menyoroti tantangan yang terus berlanjut saat mengevaluasi AI; membedakan antara penalaran sejati dan pengenalan pola.

Ketika kemampuan model bahasa besar terus berkembang, tolok ukur yang digunakan untuk menilai kemampuan mereka biasanya juga meningkat. Namun, tanpa mengisolasi dan memvalidasi dataset dasar tolok ukur dengan benar, peningkatan kemampuan tersebut dapat dikaitkan dengan paparan data pelatihan daripada dikembangkan oleh kedalaman analitis sejati.

Perbedaan ini sangat penting saat mengevaluasi keamanan kontrak pintar, karena jenis eksploitasi ini sering melibatkan interaksi kompleks, batasan kontekstual, dan kasus tepi ekonomi. Agar menjadi tolok ukur yang andal, sebuah tolok ukur harus:

• Kelayakan Memenuhi Persyaratan melalui Eksploitabilitas Praktis

• Pertimbangan Ekonomi tentang Kelayakan

• Batasan Eksekusi Terkait Transaksi On-Chain

• Permukaan Serangan yang Ada di Dunia Fisik

Jika tingkat keparahan atau asumsi tentang kerentanan yang digunakan dalam benchmarking tidak benar, tolok ukur tersebut dapat menyesatkan pengembang. Komentar OpenZeppelin menunjukkan bahwa industri keamanan kripto memiliki ekspektasi yang sama terhadap tolok ukur berbasis AI seperti yang diharapkan dalam proses audit protokol.

Ketegangan Konstruktif Antara AI dan Pakar Keamanan

Perlu dicatat bahwa OpenZeppelin menyatakan dukungan mereka terhadap inisiatif tersebut sebelum menerbitkan kritik mereka. Ini menunjukkan bahwa argumennya bukan menentang penggunaan AI untuk benchmarking, melainkan untuk memperkuat proses benchmarking AI.

Hubungan timbal balik antara komunitas audit keamanan blockchain dan komunitas penelitian AI adalah ketegangan yang konstruktif yang akan menciptakan:

Bekerja sama untuk mengembangkan definisi, kriteria, dan standar untuk dataset akan membantu mengurangi kemungkinan kepercayaan berlebihan pada sistem otomatis sekaligus mendorong inovasi, karena alat berbasis AI terus meningkat popularitasnya di ruang pengembangan Web3.

Ketika alat kecerdasan buatan semakin populer di komunitas pengembangan Web3, menjadi semakin penting untuk menetapkan proses transparan untuk memvalidasi penggunaannya.

Kesimpulan

Hasil EVMbench dari OpenZeppelin menyoroti betapa menantangnya menilai kualitas kecerdasan buatan yang digunakan untuk menilai keamanan di ruang blockchain. Penemuan potensi kontaminasi data pelatihan yang dapat memengaruhi seberapa baik AI dapat mengidentifikasi kerentanan dalam kontrak, telah menghasilkan percakapan yang sangat penting mengenai integritas tolok ukur yang digunakan dalam industri ini. Industri ini mengelola nilai ratusan miliar dolar yang dipegang on-chain, sehingga menggunakan metode yang tepat saat melakukan analisis apa pun sangatlah penting.

Agar kecerdasan buatan menjadi kontributor yang andal untuk mengaudit kontrak pintar, setiap kerangka kerja yang digunakan untuk mengevaluasi AI juga perlu tunduk pada jenis penilaian adversarial yang akan dibantu oleh kecerdasan buatan untuk didirikan oleh protokol dasar. Konvergensi AI dan blockchain diharapkan menghasilkan efisiensi yang signifikan tetapi seperti yang ditunjukkan oleh studi kasus ini, inovasi perlu tunduk pada standar yang ketat agar hasil ini terwujud.