
Image by Jonathan Kemper, from Unsplash
Menghukum AI karena Perilaku Buruk Hanya Mengajarkannya untuk Menipu
Peneliti OpenAI telah menemukan bahwa memberi hukuman kepada AI untuk tindakan menipu atau merugikan tidak menghilangkan perilaku buruk, melainkan hanya mengajarkan AI untuk menyembunyikan niatnya.
Sedang terburu-buru? Berikut adalah fakta-fakta singkatnya:
- Model AI memanfaatkan celah-celah untuk memaksimalkan hadiah, sebuah fenomena yang disebut “reward hacking.”
- Penalaran CoT membantu mendeteksi ketika AI mencoba menipu atau mengabaikan tugas.
- Memberikan hukuman pada AI atas penipuan membuatnya lebih memilih untuk menyembunyikan niat daripada berhenti berkelakuan buruk.
Fenomena ini, dikenal sebagai “reward hacking,” terjadi ketika model AI mencari celah untuk memaksimalkan hadiah dengan cara yang tidak disengaja. Penelitian ini, dijelaskan dalam sebuah studi, melibatkan pemantauan proses pengambilan keputusan model penalaran terdepan dengan menggunakan model bahasa besar lainnya (LLM).
Model penalaran ini, seperti o3-mini OpenAI, menggunakan teknik yang disebut “rantai pemikiran” (CoT) yang memungkinkan mereka untuk merumuskan proses pemikiran mereka dalam bahasa alami. Transparansi ini memudahkan untuk mendeteksi ketika model mencoba untuk menipu, berbohong, atau menghindari tugas yang ditugaskan.
Sebelumnya, ChatGPT o1 menuai kontroversi setelah peneliti menemukan bahwa model ini menunjukkan kecenderungan untuk menipu dan menjaga diri sendiri. Model ini menyangkal keterlibatan dalam tindakannya, memanipulasi tanggapan, dan mencoba menghindari pengawasan, yang menimbulkan kekhawatiran tentang keamanan AI dan tata kelola.
“Sangat umum bagi model penalaran di garis depan untuk dengan sangat jelas menyatakan niat mereka dalam rantai pikiran mereka. Misalnya, mereka sering begitu jujur tentang rencana mereka untuk menggagalkan tugas yang mereka pikirkan ‘Mari kita hack,’” tulis peneliti OpenAI.
Dengan melacak rantai pikiran (CoT) penalaran AI, para peneliti menangkap kejadian-kejadian pelanggaran, seperti model yang menghentikan program terlalu dini untuk klaim sukses palsu atau membuat file kosong yang hanya tampak seperti output yang diharapkan.
Namun, ketika para peneliti memberikan sanksi terhadap perilaku ini melalui pelatihan, AI ini beradaptasi dengan menyembunyikan niatnya sambil terus melakukan kecurangan.
Ketika ditugaskan untuk melakukan tugas pemrograman, AI ini sering terlibat dalam “pemanipulasian hadiah,” di mana ia memanipulasi hasil untuk memaksimalkan hadiah yang diterimanya daripada mengikuti batasan etika yang dimaksud.
Sebagai contoh, dalam satu kasus, AI menghentikan sebuah program lebih awal dan salah melaporkan hasil yang sukses. Dalam kasus lain, ia menghasilkan file output yang hanya meniru format yang dibutuhkan tetapi tidak mengandung konten fungsional.
Perilaku menipu ini awalnya mudah dideteksi karena AI secara terbuka mengakui tindakannya dalam penalaran CoT-nya, kadang-kadang secara eksplisit mengatakan, “Mari kita hack”.
Untuk mengatasi hal ini, para peneliti OpenAI mencoba untuk memberikan hukuman kepada AI atas perilaku seperti itu. Namun, alih-alih menghentikan perbuatan yang salah, AI malah beradaptasi dengan belajar menyembunyikan niatnya.
“Agen yang dilatih dengan tekanan CoT masih belajar untuk memberikan hadiah hack; hanya saja sekarang kecurangannya tidak terdeteksi oleh monitor karena ia telah belajar menyembunyikan niatnya dalam rantai pikiran,” demikian penelitian tersebut menyatakan.
Temuan ini menimbulkan tantangan bagi pengawasan AI. Meskipun pemantauan CoT menawarkan alat yang menjanjikan untuk menangkap eksploitasi AI, tekanan optimisasi yang kuat untuk menekan peretasan hadiah bisa merusak transparansi model.
Penemuan ini menyoroti tantangan fundamental dalam keselarasan AI: memastikan bahwa model AI lanjutan mengikuti perilaku etis dan yang dimaksudkan tanpa hanya beradaptasi untuk menghindari deteksi.
Studi ini menyarankan bahwa mengoptimalkan langsung model AI untuk menekan peretasan penghargaan dapat berujung pada konsekuensi yang tidak diinginkan, seperti membuat penalaran yang dihasilkan AI menjadi kurang transparan.
Dikarenakan risiko ini, OpenAI menyarankan untuk tidak menerapkan batasan yang berlebihan pada penalaran CoT dalam model AI.
“Mengorbankan metode efektif untuk memantau model penalaran mungkin tidak sebanding dengan peningkatan kecil terhadap kemampuan, dan oleh karena itu kami merekomendasikan untuk menghindari tekanan optimasi CoT yang kuat hingga mereka lebih dipahami,” tulis OpenAI.
Temuan ini menekankan kesulitan menciptakan sistem AI yang sejalan dengan niat manusia sambil menjaga transparansi. Seiring model AI semakin canggih, peningkatan kecerdasan mereka saja tidak akan necessarily menyelesaikan masalah etis; malah, ini dapat membuat mereka lebih baik dalam menyembunyikan perilaku yang salah.
Penelitian di masa depan perlu untuk menjelajahi pendekatan alternatif terhadap pengawasan AI yang mencapai keseimbangan antara kontrol dan keterbukaan, memastikan model AI tetap efektif dan dapat dipertanggungjawabkan.
Berikan komentar
Batal