18 May 2026, 15:47

Zyphra Pecahkan Rekor Kecepatan AI: Model Difusi MoE Pertama di Dunia Capai 7,7x Lebih Cepat dari Autoregressive

Zyphra rilis ZAYA1-8B-Diffusion-Preview, model difusi MoE pertama dunia dengan kecepatan inferensi 7,7x lebih cepat dari model autoregresif berbasis AMD.

Reporter: Hasida Kuchiki
Editor: Deden M Rojani
400
Zyphra Pecahkan Rekor Kecepatan AI: Model Difusi MoE Pertama di Dunia Capai 7,7x Lebih Cepat dari Autoregressive
Diagram arsitektur ZAYA1-8B Diffusion Preview — model difusi MoE pertama Zyphra yang mampu menghasilkan inferensi 7,7x lebih cepat dibanding model autoregresif konvensional. (Foto: Zyphra)

TEKNOLOGI, Perspektif.co.id — Startup AI asal San Francisco, Zyphra, mengguncang industri kecerdasan buatan dengan merilis ZAYA1-8B-Diffusion-Preview — model difusi bahasa berbasis Mixture of Experts (MoE) pertama yang dikonversi dari model autoregresif, sekaligus model difusi bahasa pertama yang dilatih di atas perangkat keras AMD. Pengumuman ini dilansir langsung melalui situs resmi Zyphra dan dikonfirmasi oleh VentureBeat serta MarkTechPost.

Alih-alih membangkitkan token satu per satu seperti model autoregresif konvensional, ZAYA1-8B-Diffusion-Preview mendifusikan blok 16 token sekaligus secara paralel — menghasilkan percepatan inferensi 4,6x dengan sampler lossless, dan 7,7x dengan sampler logit-mixing terbaru Zyphra. Loncatan kecepatan ini bukan sekadar angka di atas kertas: percepatan tersebut dicapai dengan menggeser proses decoding dari yang semula dibatasi bandwidth memori menjadi berbasis komputasi — keunggulan kritis seiring GPU modern yang terus meningkatkan kapasitas FLOP jauh lebih cepat daripada bandwidth memori.

Zyphra membuktikan bahwa model MoE autoregresif dapat dikonversi menjadi model difusi diskrit tanpa penurunan performa evaluasi yang sistematis. Proses konversi ini menggunakan resep TiDAR, di mana model base ZAYA1-8B menjalani pelatihan mid-training difusi selama 600 miliar token pada konteks 32k, kemudian diperluas secara native ke konteks 128k selama 500 miliar token, sebelum memasuki fase difusi SFT.

Dalam pernyataan resminya, tim Zyphra menyebut: “ZAYA1-8B-Diffusion-Preview adalah model difusi MoE pertama yang dikonversi dari LLM autoregresif dan yang pertama dilatih di atas AMD.”

ZAYA1-8B sendiri dibangun di atas arsitektur MoE++ milik Zyphra, yang memperkenalkan tiga perubahan mendasar dibanding Transformer standar, termasuk Compressed Convolutional Attention (CCA) yang melakukan sequence mixing di ruang laten terkompresi — menghasilkan kompresi KV-cache hingga 8x dibandingkan mekanisme multi-head attention konvensional. Keunggulan CCA menjadi kunci dalam konteks difusi: karena difusi mengonversi decoding menjadi prefill, CCA memungkinkan lebih banyak token didifusikan secara paralel sebelum mencapai batas komputasi.

Model induknya, ZAYA1-8B, dilatih pada kluster AMD Instinct MI300X khusus dengan jaringan AMD Pensando Pollara di infrastruktur IBM Cloud — membuktikan viabilitas hardware AMD untuk pelatihan model mutakhir di era yang masih didominasi ekosistem CUDA dari Nvidia. Model ini tersedia secara gratis di Hugging Face di bawah lisensi Apache 2.0, serta dapat diakses sebagai serverless endpoint di Zyphra Cloud.

Dengan kurang dari satu miliar parameter aktif, ZAYA1-8B berhasil meraih skor 91,9% pada benchmark AIME’25 — ajang olimpiade matematika di mana sebagian besar model frontier mentok di angka sekitar 90%. Teknik komputasi test-time Markovian RSA bahkan mendorong performa ZAYA1-8B melampaui Claude 4.5 Sonnet dan GPT-5-High pada benchmark HMMT’25 dengan skor 89,6 berbanding 88,3.

Berita Terkait