OpenAI, bekerja sama dengan Paradigm, meluncurkan tolok ukur baru untuk menguji kinerja AI pada keamanan kontrak pintar Ethereum. Rilis yang diumumkan minggu ini memperkenalkan EVMbench sebagai cara untuk mengukur bagaimana agen AI mendeteksi, menambal, dan mengeksploitasi kelemahan kontrak. Upaya ini menargetkan peningkatan risiko, karena kontrak pintar mengamankan aset kripto senilai lebih dari $100 miliar di seluruh jaringan EVM.
Menurut OpenAI, EVMbench mengambil data dari 120 kerentanan tingkat tinggi yang diidentifikasi dari 40 audit kontrak pintar profesional. Perlu dicatat, banyak dari masalah ini berasal dari kompetisi audit terbuka, termasuk Code4rena. Benchmark ini berfokus pada bug nyata, bukan contoh sintetis.
Selain itu, OpenAI mengatakan bahwa dataset tersebut mencakup skenario yang terkait dengan pekerjaan keamanan pada rantai Tempo. Tempo beroperasi sebagai jaringan Layer-1 yang berfokus pada pembayaran dan dibangun untuk transfer stablecoin. Karena itu, kasus-kasus ini memperkenalkan risiko logika pembayaran ke dalam lingkungan benchmark.
Untuk mendukung pengujian yang realistis, para insinyur menggunakan kembali skrip bukti konsep eksploitasi jika tersedia. Namun, mereka secara manual membangun komponen yang hilang ketika dokumentasi terbukti tidak lengkap. OpenAI mengatakan hal itu mempertahankan kerentanan yang dapat dieksploitasi sambil memastikan patch dapat dikompilasi dengan benar.
EVMbench mengevaluasi agen dalam mode deteksi, penambalan, dan eksploitasi. Dalam mode deteksi, agen memindai repositori dan menerima skor berdasarkan pengingatan kerentanan yang terkonfirmasi. Dalam mode penambalan, agen harus memperbaiki kelemahan sambil mempertahankan perilaku kontrak asli.
Namun, mode eksploitasi mensimulasikan serangan pengurasan dana penuh dalam blockchain sandbox . OpenAI mengatakan bahwa penilai mengkonfirmasi hasil melalui pemutaran ulang transaksi dan pemeriksaan status on-chain. Untuk memastikan konsistensi, perusahaan membangun kerangka kerja berbasis Rust untuk penerapan deterministik.
Pengujian eksploitasi dijalankan di lingkungan Anvil lokal, bukan di jaringan langsung. OpenAI mencatat bahwa semua kerentanan bersifat historis dan telah diungkapkan secara publik. Selain itu, alat pengaman membatasi panggilan RPC yang tidak aman untuk mengurangi penyalahgunaan.