Gemini 3.1 Flash-Lite Resmi Rilis: Model AI Google Paling Cepat dan Hemat Biaya

Notification

×

Gemini 3.1 Flash-Lite Resmi Rilis: Model AI Google Paling Cepat dan Hemat Biaya

07/03/2026 | 1:39:00 AM WIB Last Updated 2026-03-06T18:41:55Z
Google,Gemini 3.1 Flash-Lite,AI,Google Gemini 3.1,Model AI Google terbaru,AI tercepat dan termurah,Kecerdasan Buatan Google,Google AI Studio,Harga token Gemini,Benchmark AI (Arena.ai, GPQA Diamond, MMMU-Pro)

Google terus mendorong batasan kecepatan dan skala kecerdasan buatan (AI) dengan merilis model ringan terbaru yang dirancang khusus untuk beban kerja masif.

Perusahaan teknologi raksasa ini baru saja meluncurkan Gemini 3.1 Flash-Lite, yang diklaim sebagai model AI tercepat dan paling efisien dari segi biaya untuk menangani tugas-tugas bervolume tinggi.

Menurut Google, model terbaru ini secara khusus ditujukan bagi para developer (pengembang) yang menjalankan operasi AI berfrekuensi tinggi serta layanan real-time yang membutuhkan respons super cepat di jutaan permintaan secara bersamaan.

Dibangun untuk Skala Besar, Dirancang untuk Produksi

Gemini 3.1 Flash-Lite secara resmi menjadi bagian dari keluarga besar Gemini 3. Model ini dirancang lebih ringkas (streamlined) dan disesuaikan untuk lingkungan kerja dengan throughput tinggi, di mana kecepatan dan efisiensi menjadi prioritas utama.

Desain ini memungkinkan perusahaan untuk melakukan penerapan (di-deploy) skala besar tanpa beban berat yang biasanya ditemukan pada model AI berukuran besar.  Saat ini, Gemini 3.1 Flash-Lite tersedia dalam versi preview bagi:
  • Developer: Melalui Google AI Studio menggunakan Gemini API.

  • Tim Enterprise (Perusahaan): Melalui platform Vertex AI.


Hal ini memungkinkan berbagai organisasi untuk mulai menguji coba model ini pada beban kerja nyata seiring dengan ekspansi seri Gemini 3 oleh Google.

Kecepatan Super dan Hemat Biaya dalam Satu Paket

Google juga merinci peningkatan performa serta struktur harga yang membuat desain Flash-Lite sangat menarik bagi para pelaku bisnis.

Struktur Harga Gemini 3.1 Flash-Lite:

  • $0,25 per 1 juta token input (masukan).

  • $1,50 per 1 juta token output (keluaran).


Struktur harga ini dirancang untuk menjaga biaya tetap terkendali bagi aplikasi yang harus memproses permintaan dalam skala masif.

Peningkatan Performa: Dibandingkan dengan pendahulunya, yakni Gemini 2.5 Flash, model terbaru ini menawarkan:
  • 2,5x lebih cepat pada time to first token (waktu respons awal).

  • 45% lebih cepat pada kecepatan output.


Peningkatan ini sangat krusial untuk sistem yang menangani aliran prompt secara terus-menerus, seperti moderasi otomatis, terjemahan skala besar, atau layanan bervolume tinggi lainnya.

Peningkatan kecil pada kecepatan respons dapat memberikan dampak efisiensi yang luar biasa saat diakumulasikan di jutaan interaksi AI.

Skor Benchmark: Cerdas dan Berkemampuan Multimodal

Tidak hanya cepat, Gemini 3.1 Flash-Lite juga menunjukkan performa luar biasa dalam pengujian industri (Benchmark) yang mengukur tingkat penalaran dan pemahaman multimodal.
  • Papan Peringkat Arena.ai: Mencetak skor Elo sebesar 1432 (sistem peringkat yang membandingkan performa model AI secara langsung).

  • GPQA Diamond: Meraih skor 86,9% pada pengujian yang fokus pada pertanyaan penalaran tingkat tinggi/kompleks.

  • MMMU-Pro: Meraih skor 76,8% untuk mengukur seberapa baik model ini menerjemahkan dan menalar teks, gambar, serta media lainnya.


Hasil ini menempatkan Flash-Lite di atas berbagai model kompetitor di kategori yang sama, bahkan melampaui beberapa model Gemini yang lebih besar dari generasi sebelumnya.

Uji Coba Dunia Nyata: Fleksibilitas dan Konsistensi Tinggi

Salah satu fitur unggulan baru pada Gemini 3.1 Flash-Lite adalah kemampuan developer untuk mengatur "tingkat pemikiran" (thinking levels).  Tim pengembang dapat menyesuaikan seberapa banyak penalaran yang harus diterapkan oleh sistem sebelum menghasilkan respons, memberikan kontrol penuh atas setiap tugas.

Berbagai perusahaan yang mendapatkan akses awal seperti Latitude, Cartwheel, dan Whering, telah mulai menguji model ini di lingkungan produksi mereka:
  • Whering melaporkan konsistensi 100% dalam penandaan item (item tagging) saat menggunakan model ini untuk klasifikasi produk.

  • Penguji awal lainnya mencatat bahwa Flash-Lite mampu memberikan penyelesaian (completion) dalam waktu kurang dari 10 detik dengan streaming yang nyaris instan, serta tingkat kepatuhan output terstruktur mencapai 97%.


Dengan dibukanya akses preview ini, Google secara resmi mengundang para developer di seluruh dunia untuk mulai bereksperimen dengan Gemini 3.1 Flash-Lite di skala yang masif.