Perusahaan AI asal China, DeepSeek, resmi meluncurkan DeepSeek V3.1, pembaruan dari model bahasa besar (LLM) yang sebelumnya sudah menggebrak industri dengan efisiensi dan performanya. Versi terbaru ini membawa sederet peningkatan signifikan yang membuatnya makin siap bersaing dengan raksasa AI seperti OpenAI.
DeepSeek V3.1 kini mendukung jendela konteks hingga 128.000 token, setara dengan kemampuan memproses teks sepanjang 300-400 halaman buku dalam sekali jalan. Ini memungkinkan model untuk menangani tugas-tugas kompleks seperti penulisan konten panjang, analisis dokumen teknis, dan percakapan multi-turn yang lebih lancar.
Selain itu, jumlah parameter meningkat menjadi 685 miliar, termasuk 671 miliar untuk model utama dan 14 miliar untuk modul Multi-Token Prediction (MTP), menjadikannya salah satu model terbesar di kelasnya.
Model ini tetap menggunakan arsitektur Mixture-of-Experts (MoE), dengan hanya 37 miliar parameter yang diaktifkan per token. Pendekatan ini menjadikan V3.1 lebih efisien dibandingkan model dense tradisional, karena hanya mengaktifkan sebagian kecil parameter untuk setiap tugas.
Dukungan untuk format komputasi seperti BF16, FP8, dan F32 juga memberikan fleksibilitas bagi pengembang untuk mengoptimalkan performa di berbagai perangkat keras, termasuk GPU Nvidia, AMD, dan Huawei Ascend NPU.
Dalam uji coba awal, DeepSeek V3.1 mencatatkan skor 71,6% pada benchmark Aider untuk pemrograman, mengungguli model proprietary seperti Claude Opus 4 dari Anthropic. Pencapaian ini menempatkan V3.1 sebagai salah satu model sumber terbuka terbaik untuk tugas-tugas pengkodean.
Tak hanya itu, model ini juga menunjukkan peningkatan dalam kemampuan matematika dan logika, meskipun beberapa pengguna mencatat bahwa kemampuan penalarannya belum sepenuhnya menyamai DeepSeek R1-0528.
Penghentian Lini R1
DeepSeek telah memutuskan untuk menghentikan lini model R1, yang sebelumnya fokus pada penalaran tingkat lanjut. Sebagai gantinya, kemampuan penalaran kini diintegrasikan ke dalam V3.1, menjadikannya model hibrida yang mampu menangani tugas penalaran (seperti matematika dan pemrograman) maupun non-penalaran (seperti penulisan kreatif). Langkah ini mencerminkan strategi DeepSeek untuk menyatukan semua kemampuan dalam satu platform terpadu.
DeepSeek V3.1 tersedia untuk diunduh di Hugging Face di bawah lisensi MIT, yang memungkinkan penggunaan komersial dan modifikasi. Model ini juga dapat diakses melalui API DeepSeek dengan biaya USD 0,56 per juta token input dan USD 1,68 per juta token output, menjadikannya opsi yang sangat hemat biaya dibandingkan model proprietary.
Meskipun biaya pelatihan V3.1 belum diungkapkan, model V3 sebelumnya dilatih dengan 2,788 juta jam GPU Nvidia H800, dengan estimasi biaya USD 5,6 juta-jauh lebih rendah dibandingkan model seperti GPT-4 yang diperkirakan menelan biaya USD 50-100 juta. Efisiensi ini dicapai melalui desain algoritma dan arsitektur MoE yang inovatif.
Namun, DeepSeek menghadapi tantangan dalam pengembangan model R2 yang diantisipasi, terutama karena masalah teknis dengan chip Huawei Ascend. Meskipun mendapat dorongan dari otoritas China untuk mengurangi ketergantungan pada Nvidia, masalah kompatibilitas dan performa memaksa DeepSeek kembali menggunakan GPU Nvidia untuk pelatihan, sementara Ascend hanya digunakan untuk inferensi. Proses pelabelan data yang lambat juga turut menghambat kemajuan.
Penundaan R2 memberikan keunggulan bagi pesaing seperti Qwen3 dari Alibaba, yang berhasil menerapkan algoritma serupa dengan eksekusi lebih efisien. Meski begitu, DeepSeek belum membatalkan rencana peluncuran R2, meskipun tanggal rilisnya masih belum jelas. Untuk saat ini, V3.1 menjadi model unggulan DeepSeek, menawarkan keseimbangan antara performa tinggi dan efisiensi biaya.
Simak Video "Siapkah Ekosistem AI Dukung Ekonomi Kreatif Indonesia?"
(afr/afr)