Di dunia yang masih diguncang oleh Large Language Model (LLM) seperti GPT, ada arah riset yang mulai terlihat sebagai lompatan paradigma: model visi-bahasa yang tidak menghasilkan kata demi kata, melainkan memprediksi makna langsung di ruang laten.
Model-model ini, yang dibangun di atas arsitektur Joint Embedding Predictive Architecture (JEPA) dan contoh terbarunya sering disebut Vision-Language Joint (VLJ), menunjukkan bahwa pemahaman visual-temporal dapat jauh lebih efisien dan lebih berguna untuk agen dunia nyata seperti robot.
Apa itu VLJ dan JEPA?
VLJ adalah model visi-bahasa yang belajar dan memprediksi representasi makna di ruang laten (semantic space) daripada merangkai teks token demi token. Sedangkan JEPA adalah pendekatan dasarnya adalah memprediksi embedding masa depan sehingga sistem belajar dinamika kausal dan kontinuitas, bukan sekadar mendeskripsikan frame demi frame.
Perbedaan Fundamental: Generatif vs Non-Generatif
Model generatif seperti GPT menulis "sambil berpikir"—mereka memutuskan kata pertama, lalu kata kedua, dan seterusnya sampai kalimat selesai. Itu berarti keluaran harus dihasilkan untuk menunjukkan apa yang "dipikirkan" model.
Pendekatan non-generatif berbeda yaitu model membangun keadaan internal makna yang diam dan stabil. Kalau diminta, ia bisa menerjemahkan makna itu ke kata-kata, tapi proses berpikirnya tidak membutuhkan keluaran teks.
Analogi sederhananya model generatif seperti CCTV yang terus-menerus berteriak label setiap frame sedangkan model JEPA/VLJ seperti manusia yang menonton dan menunggu cukup bukti sebelum mengatakan "oh, dia sedang mengambil kanister".
Arsitektur (versi sederhana)
Arsitektur inti dapat dipahami lewat beberapa komponen utama:
- X encoder: menangkap input visual (frame video atau citra).
- Predictor: "otak" yang memprediksi embedding masa depan—membangun representasi temporal dan kausal.
- Y encoder / Y decoder: bagian opsional yang menghubungkan representasi makna dengan teks bila diperlukan (misalnya menjawab pertanyaan atau membuat caption).
- Loss pembanding: mekanisme pelatihan yang menyamakan prediksi makna dengan target embedding, sehingga model belajar memetakan dinamika fisik pada level abstraksi yang tepat.
Mengapa VLJ-JEPA Penting untuk Robotika dan Agen Nyata
VLJ-JEPA merupakan terobosan penting dalam robotika dan pengembangan agen nyata karena arsitektur ini secara fundamental meningkatkan kemampuan sistem dalam memahami dan berinteraksi dengan dunia nyata yang kompleks dan dinamis.
Dengan menggabungkan pemrosesan visual dan linguistik dalam satu kerja prediktif yang terpadu, VLJ-JEPA memungkinkan robot atau agen otonom untuk tidak hanya mengenali objek secara pasif, tetapi juga dapat:
- Memprediksi hubungan spasial
- Urutan kejadian
- Konsekuensi tindakan dalam konteks instruksi bahasa alami
Hal tersebut menghasilkan representasi dunia yang lebih kaya dan efisien, yang sangat penting untuk tugas-tugas seperti:
- Navigasi otonom di lingkungan yang tidak terstruktur
- Manipulasi objek yang preseden berdasarkan perintah verbal (Kolaborasi yang aman dan adaptif dengan manusia).
Kemampuan prediktifnya mengurangi ketergantungan pada data berlabel secara masif dan memungkinkan pembelajaran yang lebih generalisasi dari pengalaman dunia nyata, sehingga mempercepat pengembangan sistem robotika yang lebih cerdas, responsif, dan mampu beradaptasi dalam berbagai skenario aplikasi praktis, dari logistik dan manufaktur hingga asistensi personal dan eksplorasi.
Ada beberapa alasan praktis mengapa JEPA/VLJ lebih cocok untuk dunia fisik:
- Temporal reasoning dimana model belajar kapan suatu aksi dimulai, berlanjut, dan berakhir—bukan hanya menebak label per frame.
- Pendekatan ini seringkali membutuhkan jauh lebih sedikit parameter untuk performa yang setara atau lebih baik dibanding model generatif besar.
- Kecepatan dan diam karena tidak harus menghasilkan teks saat berpikir, model bisa lebih cepat dan hemat sumber daya.
- Perencanaan fisik dengan memprediksi dinamika latent sehingga membuat model lebih mampu melakukan reasoning kausal dan counterfactual—kritis untuk manipulasi objek dan kontrol robotik.
Visualisasi Proses Berpikir VLJ-JEPA
Konsep inti bisa digambarkan sebagai awan titik di ruang makna. Titik-titik merah menandai tebakan awal yang instan dan seringkali noisy. Titik-titik biru menggambarkan makna yang stabil setelah cukup bukti terkumpul.
Model JEPA/VLJ bergerak di antara titik-titik ini, mengunci interpretasi ketika confidence cukup tinggi—berbeda jauh dengan sistem yang hanya melihat frame satu per satu.
Dalam pengujian zero-shot (misalnya dalam captioning video dan klasifikasi video), model JEPA/VLJ menunjukkan pembelajaran yang lebih cepat dan kualitas caption yang lebih baik dibanding model visi-bahasa berbasis token tradisional. Beberapa temuan praktis membuktikan bahwa:
- VLJ mencapai kualitas caption lebih tinggi dengan dataset dan setup yang sama.
- Performa klasifikasi video dalam skenario zero-shot melesat lebih cepat daripada model VL tradisional.
- Ukuran model jauh lebih kecil dengan ada varian dengan ~1.6 miliar parameter yang kompetitif, jauh di bawah model generatif besar yang sering kali puluhan kali lebih besar.
"Seorang anak empat tahun telah melihat data visual sebanyak model bahasa terbesar yang dilatih dari seluruh teks yang pernah diproduksi. Itu menunjukkan ada informasi jauh lebih banyak di dunia nyata, tapi juga lebih rumit: noisy, berdimensi tinggi, dan kontinu. Metode yang dipakai untuk melatih LLM tidak bekerja di dunia nyata." — Yann LeCun.
Model ini bukan solusi sempurna. Dalam beberapa demonstrasi, prediksi aksi pada beberapa frame masih meleset—jika dikunci pada satu frame statis, label yang dihasilkan bisa salah.
Namun inti kemajuan bukan akurasi instan di setiap frame, melainkan kemampuan untuk mengembangkan pemahaman temporal yang stabil. Dengan kata lain, perbaikan kunci ada pada struktur belajar, bukan hanya pada tuning output teks.
Apa Artinya VLJ-JEPA Bagi Masa Depan AI?
Jika pendekatan ini mendapatkan adopsi luas, kita mungkin akan bergeser dari era "berpikir dalam kata" menuju era "berpikir dalam makna".
Bahasa tetap penting sebagai format keluaran—untuk menjelaskan atau berkomunikasi—tetapi bukan lagi syarat untuk berpikir atau merencanakan.
Untuk robot, wearable, dan agen otonom, ini bisa menjadi jalan menuju kemampuan yang lebih praktis dalam memahami lingkungan, merencanakan tindakan fisik, dan belajar dari pengalaman visual secara efisien.
JEPA/VLJ tidak menghapus Large Language Model (LLM), namun melengkapi dan mungkin menggeser prioritas desain AI ketika targetnya adalah interaksi dengan dunia nyata.
Pendekatan tersebut menegaskan satu pesan sederhana bahwa bahasa adalah cara mengungkapkan kecerdasan, bukan kecerdasan itu sendiri.
Memindahkan pusat perhatian dari token ke makna bisa membawa AI lebih dekat ke agen yang benar-benar memahami dan bertindak di dunia.
Youtube: iTNews Indonesia, 08 Jan 2026 09:28. Kenapa Model Jenis AI Baru Non-Generatif (VLJ/JEPA) Bisa Melampaui LLM.
