Untuk memperbaiki cara kita menguji dan mengukur kecerdasan buatan (AI), para peneliti kini mulai menerapkan pendekatan dari ilmu sosial.
Pada November 2024, sebuah alat evaluasi baru bernama SWE-Bench diluncurkan untuk menilai kemampuan pemrograman model AI. Alat ini menggunakan lebih dari 2.000 masalah pemrograman nyata yang diambil dari repositori GitHub publik milik 12 proyek Python. Sejak diluncurkan, SWE-Bench dengan cepat menjadi salah satu tolok ukur paling populer dalam dunia AI.
Kini, skor dari SWE-Bench sering kali digunakan sebagai acuan dalam peluncuran model besar dari perusahaan seperti OpenAI, Anthropic, dan Google. Bahkan, pengembang model fine-tuning dari berbagai perusahaan AI berlomba-lomba menduduki posisi teratas dalam daftar peringkat. Saat ini, posisi teratas dikuasai oleh tiga versi berbeda dari model Claude Sonnet milik Anthropic, serta agen pengembang milik Amazon yang disebut Q. Salah satu modifikasi Claude, Auto Code Rover, berhasil menduduki posisi kedua pada November dan diakuisisi hanya tiga bulan kemudian.
Namun, meskipun persaingan ini tampak ketat, hasilnya belum tentu mencerminkan model mana yang benar-benar “terbaik”. Menurut John Yang, peneliti dari tim pengembang SWE-Bench di Universitas Princeton, semakin populernya benchmark ini membuat banyak pihak mulai “bermain” untuk memenangkan sistem tersebut. Hal ini memicu perdebatan di kalangan peneliti mengenai perlunya cara yang lebih baik dalam mengukur kemampuan sebenarnya dari AI.
AGI Jadi Topik Hangat di Meja Makan
Istilah Artificial General Intelligence (AGI) atau kecerdasan umum buatan kini muncul di mana-mana, meski maknanya tetap samar. Membuat definisi yang jelas menjadi semakin penting di tengah perhatian yang meningkat.
Pengembang agen pemrograman ini sebenarnya tidak melakukan kecurangan terang-terangan, tetapi pendekatan mereka terlalu disesuaikan dengan struktur dari benchmark itu sendiri. Misalnya, karena SWE-Bench awalnya hanya menguji program dalam bahasa Python, pengembang bisa melatih model mereka hanya dengan kode Python untuk meraih skor tinggi. Akibatnya, banyak model dengan skor tinggi gagal total ketika diuji menggunakan bahasa pemrograman lain. Menurut Yang, pendekatan seperti ini tampak “berkilau di permukaan”, tetapi rapuh dalam praktik.
“Kalau dijalankan dengan bahasa lain, semuanya berantakan,” ujarnya. “Pada titik itu, Anda bukan lagi membuat agen rekayasa perangkat lunak, melainkan agen untuk menyelesaikan SWE-Bench. Itu jauh lebih tidak menarik.”
Permasalahan pada SWE-Bench hanyalah salah satu contoh dari isu yang lebih luas dan kompleks dalam evaluasi AI—sebuah persoalan yang kini menjadi pusat perdebatan sengit. Benchmark yang selama ini dijadikan pedoman pengembangan semakin menjauh dari penilaian atas kemampuan nyata model, sehingga nilainya mulai dipertanyakan. Bahkan, sejumlah benchmark seperti FrontierMath dan Chatbot Arena belakangan dikritik karena dinilai kurang transparan. Meski demikian, benchmark tetap menjadi komponen utama dalam proses pengembangan model, meski hanya sedikit ahli yang benar-benar mempercayai hasilnya secara utuh.
Andrej Karpathy, salah satu pendiri OpenAI, menyebut kondisi ini sebagai “krisis evaluasi” karena industri AI semakin kekurangan metode yang bisa diandalkan untuk mengukur kemampuan model, dan belum ada jalan keluar yang jelas.
Menurut Vanessa Parli, direktur riset di Institute for Human-Centered AI, Stanford University, “Secara historis, benchmark adalah cara utama untuk mengevaluasi sistem AI. Tapi apakah itu masih cara terbaik ke depannya? Dan jika tidak, apa gantinya?”
Sejumlah akademisi dan peneliti AI mulai mendorong pendekatan yang lebih sempit namun lebih mendalam, terinspirasi dari ilmu sosial. Mereka menekankan pentingnya validitas pengujian—konsep yang dalam ilmu sosial kuantitatif berarti seberapa baik suatu alat ukur benar-benar mengukur hal yang diklaimnya, dan apakah hal yang diukur itu punya definisi yang jelas. Pendekatan ini dapat menjadi tantangan besar bagi benchmark yang menilai konsep samar seperti “penalaran” atau “pengetahuan ilmiah”, serta bagi pengembang yang bercita-cita menciptakan AGI. Namun, di sisi lain, hal ini dapat memberikan dasar yang lebih kokoh untuk membuktikan nilai sebenarnya dari setiap model AI.