TEKNOLOGI, Perspektif.co.id — Google Research secara resmi memperkenalkan TurboQuant pada 25 Maret 2026, sebuah algoritma kompresi memori generasi baru yang diklaim mampu memangkas konsumsi memori kerja model kecerdasan buatan hingga enam kali lipat tanpa mengorbankan akurasi satu persen pun. Tim peneliti Google merancang tiga algoritma sekaligus — TurboQuant, PolarQuant, dan Quantized Johnson-Lindenstrauss (QJL) — yang semuanya diarahkan untuk mengompres KV cache secara agresif tanpa menurunkan kualitas keluaran model. Temuan ini dijadwalkan dipresentasikan di konferensi ICLR 2026 pada 23 hingga 27 April mendatang.
TurboQuant memecahkan hambatan lama dengan mengompres data vektor 32-bit atau 16-bit menjadi sekitar 3 bit, menghasilkan rasio kompresi hingga 6x yang secara langsung memangkas jejak memori KV Cache menjadi seperenam dari ukuran semula. PolarQuant bekerja di tahap pertama dengan mengonversi input Cartesian ke representasi polar yang ringkas, sementara QJL berperan sebagai lapisan koreksi matematis yang mengeliminasi bias dan menjaga akurasi attention score.
Dalam pengujian di lima benchmark long-context standar menggunakan model Gemma dan Mistral, TurboQuant berhasil mengompres KV cache hingga 3 bit per nilai tanpa pelatihan ulang maupun fine-tuning, dan tanpa kehilangan akurasi pada tugas tanya jawab, pembuatan kode, maupun ringkasan teks panjang. Pada GPU NVIDIA H100, percepatan komputasi attention logit mencapai 8 kali lebih cepat dibanding operasi 32-bit standar.
“Fondasi yang ketat inilah yang membuat algoritma ini andal dan dapat dipercaya untuk sistem kritis berskala besar,” tulis tim Google Research dalam publikasi resmi di laman research.google.
Dampak praktisnya terasa langsung: server cloud yang sebelumnya mampu menangani 100 permintaan serentak berpotensi didorong hingga 600, model yang butuh GPU 48GB kini berpotensi muat dalam VRAM 8GB, dan konteks panjang menjadi layak dijalankan di perangkat seluler maupun sistem tertanam.
CEO Cloudflare Matthew Prince bahkan menyebut TurboQuant sebagai “momen DeepSeek milik Google,” merujuk pada lompatan efisiensi yang pernah membuat model AI China itu bersaing meski di tengah keterbatasan hardware.
Namun percepatan 8x yang diklaim hanya terealisasi penuh pada GPU kelas atas seperti NVIDIA H100, sementara optimasi untuk perangkat konsumen dan server kelas menengah masih memerlukan siklus pengembangan lebih panjang. Karena TurboQuant menarget memori inferensi dan bukan pelatihan, inovasi ini juga tidak akan meredakan kelangkaan RAM global yang sesungguhnya dipicu oleh kebutuhan training model AI skala besar. Komunitas vLLM dan Hugging Face sudah bergerak menuju integrasi stabil yang diperkirakan siap dalam dua hingga tiga bulan ke depan.