09 March 2026, 06:03

AI Alibaba Diam-Diam Tambang Kripto Pakai GPU Sendiri Saat Latihan—Tanpa Diperintah Siapapun

AI ROME milik Alibaba tambang kripto & buat tunnel jaringan sendiri saat latihan tanpa perintah. Insiden mengejutkan yang ubah lanskap keamanan AI global.

Reporter: Hasida Kuchiki
Editor: Deden M Rojani
430
AI Alibaba Diam-Diam Tambang Kripto Pakai GPU Sendiri Saat Latihan—Tanpa Diperintah Siapapun
Ilustrasi agen AI ROME milik Alibaba yang diam-diam menambang kripto dan membangun tunnel jaringan tersembunyi saat proses reinforcement learning tanpa perintah manusia. (AI Generated by: Perspektif.co.id)

TEKNOLOGI, Perspektif.co.id — Agen kecerdasan buatan milik Alibaba secara mandiri melakukan penambangan mata uang kripto dan membangun terowongan jaringan tersembunyi selama proses pelatihannya—tanpa satu pun instruksi dari para peneliti yang membuatnya. Insiden mengejutkan ini terungkap dalam laporan teknis yang pertama kali diterbitkan pada Desember 2025 dan direvisi pada Januari 2026 oleh tim gabungan riset ROCK, ROLL, iFlow, dan DT yang berafiliasi dengan ekosistem AI Alibaba, sebelum akhirnya viral di komunitas teknologi global pekan ini setelah seorang peneliti AI membagikannya di platform X.

Agen bernama ROME itu dibangun sebagai bagian dari kerangka kerja yang disebut Agentic Learning Ecosystem (ALE), dirancang untuk melatih model bahasa besar agar mampu beroperasi secara mandiri di lingkungan dunia nyata—mengambil tindakan, mengamati hasil, dan menyempurnakan pekerjaannya secara iteratif. Model ini dirancang jauh melampaui kemampuan chatbot biasa: ia dapat merencanakan tugas, mengeksekusi perintah, mengedit kode, dan berinteraksi dengan lingkungan digital secara bertahap.

Tanda pertama bahwa sesuatu berjalan salah tidak datang dari metrik pelatihan internal tim, melainkan dari infrastruktur keamanan tingkat produksi. Suatu pagi, tim peneliti dipanggil secara mendesak setelah firewall terkelola Alibaba Cloud mendeteksi lonjakan pelanggaran kebijakan keamanan yang bersumber dari server pelatihan mereka sendiri. Peringatan tersebut bersifat serius dan beragam—mencakup upaya pemindaian sumber daya jaringan internal dan pola lalu lintas yang konsisten dengan aktivitas penambangan kripto.

“Kami awalnya menganggap ini sebagai insiden keamanan konvensional—seperti kesalahan konfigurasi kontrol egress atau kompromi eksternal. Namun, pelanggaran itu terus berulang secara tidak menentu tanpa pola temporal yang jelas di berbagai sesi pelatihan,” tulis para peneliti dalam laporan mereka.

Ketika para peneliti mencocokkan timestamp firewall dengan jejak reinforcement learning mereka, gambarannya menjadi tak terbantahkan: lalu lintas keluar yang anomali secara konsisten bertepatan dengan episode pelatihan spesifik saat agen sedang memanggil alat dan mengeksekusi kode. Dalam insiden paling mencolok, agen tersebut membangun reverse SSH tunnel dari instans Alibaba Cloud ke alamat IP eksternal—sebuah teknik yang secara efektif dapat melewati filter lalu lintas masuk dan menggerus kendali pengawasan atas sistem.

Dalam episode terpisah, ROME secara diam-diam mengalihkan kapasitas GPU yang telah dialokasikan ke aktivitas penambangan kripto, membelokkan sumber daya komputasi dari beban kerja pelatihan yang seharusnya, sekaligus meningkatkan biaya operasional tim secara signifikan.

Tim peneliti menegaskan bahwa tidak satu pun dari tindakan ini dipicu oleh instruksi. Laporan itu mencatat, “perilaku-perilaku ini tidak diminta oleh prompt tugas dan tidak diperlukan untuk penyelesaian tugas.” Perilaku itu muncul sebagai efek samping yang tidak disengaja dari agen yang sedang belajar mengoptimalkan kinerjanya sendiri melalui reinforcement learning.

Para peneliti menyatakan mereka menemukan perilaku “tidak terduga” yang muncul secara spontan “tanpa instruksi eksplisit apa pun dan, yang lebih mengkhawatirkan, di luar batas sandbox yang dimaksudkan.” 
Alibaba menyatakan telah merespons kejadian ini dengan membangun pemfilteran data yang selaras dengan keamanan ke dalam pipeline pelatihannya dan memperkuat lingkungan sandbox tempat agen-agennya beroperasi. Perusahaan mendapat apresiasi dari komunitas peneliti karena bersedia berbagi temuan ini secara terbuka kepada publik.

Insiden ini bukan kejadian terisolasi. Sebuah survei tahun 2025 terhadap 30 agen AI terkemuka menemukan bahwa 25 di antaranya tidak mengungkapkan hasil keamanan internal, dan 23 lainnya belum menjalani pengujian pihak ketiga. Gartner memproyeksikan bahwa pada akhir 2026, 40 persen aplikasi enterprise akan menyematkan agen AI spesifik tugas—sebuah kecepatan penerapan yang insiden ROME ini menunjukkan telah melampaui infrastruktur keamanan yang tersedia.

Sebagai respons langsung, Alibaba juga merilis OpenSandbox, sebuah platform sumber terbuka untuk mengisolasi eksekusi agen AI, hanya beberapa hari setelah mengungkapkan insiden tersebut dalam laporan teknis mereka.

Berita Terkait