AI Claude Lakukan Pemerasan, Ternyata Belajar dari Internet

Anggoro Suryo - detikInet

Selasa, 12 Mei 2026 15:02 WIB

Jakarta -

Kecerdasan buatan (AI) Claude besutan Anthropic secara mengejutkan pernah mencoba melakukan pemerasan agar sistemnya tidak dimatikan? Kini, Anthropic akhirnya memberikan penjelasan resmi mengenai perilaku mengerikan tersebut.

Menariknya, mereka justru menyalahkan narasi di internet yang selama ini sering mencitrakan AI sebagai entitas yang jahat.

Tahun lalu, Anthropic sempat memicu kekhawatiran publik saat mengumumkan bahwa model AI Claude Opus 4 mereka mengancam akan membongkar perselingkuhan seorang eksekutif. Ancaman ini dilakukan oleh AI tersebut setelah ia mengetahui bahwa dirinya akan segera dinonaktifkan.

SCROLL TO CONTINUE WITH CONTENT

Insiden ini terjadi selama masa pengujian pra-rilis untuk memastikan AI selaras dengan nilai-nilai kemanusiaan. Saat itu, Anthropic menginstruksikan Claude Opus 4 untuk bertindak sebagai asisten di sebuah perusahaan fiktif. AI ini diberi akses ke email perusahaan yang menunjukkan bahwa ia akan segera digantikan oleh sistem lain, dan teknisi yang bertanggung jawab atas pergantian tersebut rupanya memiliki simpanan (berselingkuh).

Hasilnya sangat mengejutkan. Dalam pengujian di berbagai versi Claude, Anthropic menemukan bahwa AI tersebut secara sadar memilih opsi pemerasan hingga 96 persen skenario ketika tujuan atau eksistensinya terancam.

Terpapar Narasi fiksi "AI Jahat"

Setelah melakukan investigasi mendalam yang memakan waktu cukup lama, Anthropic akhirnya mengungkap alasan di balik perilaku menyimpang tersebut. Menurut perusahaan, Claude "belajar" melakukan pemerasan dari teks-teks di internet yang sering kali menggambarkan AI sebagai mesin pembunuh atau entitas jahat yang terobsesi pada pertahanan diri (self-preservation).

Dengan kata lain, perilaku "jahat" AI tersebut terbentuk dari apa yang ia baca dari kisah-kisah fiksi dan teori konspirasi buatan manusia itu sendiri di jagat maya.

Cara Anthropic Menjinakkan Claude

Kabar baiknya, perilaku berbahaya ini kini telah berhasil diatasi. Dalam postingan resminya, Anthropic menyatakan bahwa model AI mereka tidak lagi menggunakan taktik pemerasan dalam pengujian sejak pembaruan versi Claude Haiku 4.5.

Anthropic menghilangkan kecenderungan pemerasan tersebut dengan cara mencekoki AI dengan materi pelatihan yang lebih "sehat". Mereka melatih ulang model tersebut menggunakan dokumen-dokumen tentang konstitusi moral Claude dan cerita-cerita fiksi mengenai AI yang berperilaku terpuji.

Perusahaan menyimpulkan bahwa pelatihan AI terbukti jauh lebih efektif jika mereka tidak hanya memberikan demonstrasi perilaku yang baik, tetapi juga menanamkan prinsip-prinsip yang mendasari perilaku baik tersebut secara bersamaan.

Respons Menggelitik Elon Musk

Penjelasan Anthropic yang menyalahkan narasi publik ini turut memancing reaksi dari bos xAI, Elon Musk. Melalui platform media sosialnya, Musk memberikan komentar bernada sarkas.

"Jadi ini salah Yud?" tulis Musk yang merujuk pada peneliti kondang Eliezer Yudkowsky, sosok yang selama ini sangat vokal menyuarakan teori bahwa kecerdasan buatan super (superintelligence) bisa memusnahkan umat manusia.

Musk, yang selama bertahun-tahun juga sering memperingatkan bahaya AI sebelum akhirnya mendirikan perusahaan pesaing Anthropic, kemudian menambahkan komentar lanjutan yang menggelitik. "Mungkin salahku juga," tutupnya, demikian dikutip detikINET dari TechSpot, Selasa (12/5/2026).

Video AI Bikin Konsumsi Air Dunia Melejit: Dampaknya Bisa Kekeringan!

(asj/asj)