DeepSeek Diduga Gunakan Data dari Gemini untuk Latih Model AI Terbarunya

Volubit.id — Pekan lalu, laboratorium AI asal Cina, DeepSeek, merilis versi terbaru dari model AI-nya yang disebut R1. Model ini dikenal cukup baik dalam menyelesaikan soal matematika dan pemrograman.

Namun, perusahaan tersebut tidak menjelaskan secara rinci sumber data yang digunakan untuk melatih model itu. Sejumlah peneliti AI menduga, sebagian datanya berasal dari model AI milik Google, yaitu Gemini.

Seorang pengembang asal Melbourne, Australia, Sam Paech, yang biasa membuat evaluasi kecerdasan emosional untuk AI, mengklaim telah menemukan bukti bahwa model terbaru DeepSeek yang disebut R1-0528 dilatih menggunakan output dari Gemini.

Dalam unggahannya di X, Paech mengatakan, model R1-0528 lebih suka menggunakan kata-kata dan ungkapan yang mirip dengan yang biasa digunakan oleh Gemini 2.5 Pro dari Google.

Ini bukan pertama kalinya DeepSeek dituduh menggunakan data dari model AI pesaing. Pada Desember lalu, beberapa pengembang menemukan model DeepSeek V3 sering “mengaku” sebagai ChatGPT, chatbot buatan OpenAI.

Hal ini menimbulkan kecurigaan DeepSeek mungkin menggunakan log percakapan ChatGPT untuk melatih modelnya.

Awal tahun ini, OpenAI menyampaikan kepada Financial Times bahwa mereka menemukan bukti DeepSeek menggunakan teknik bernama distillation. Teknik ini digunakan untuk melatih model AI dengan cara meniru dan mengekstrak data dari model yang lebih besar dan canggih.

Menurut laporan Bloomberg, Microsoft, yang merupakan mitra dan investor OpenAI, mendeteksi adanya pencurian data dalam jumlah besar melalui akun pengembang OpenAI pada akhir 2024. OpenAI meyakini akun-akun tersebut terkait dengan DeepSeek.

Distillation sebenarnya bukanlah praktik yang ilegal dalam dunia AI, tetapi OpenAI secara tegas melarang penggunaan output dari model mereka untuk membangun produk AI pesaing.

Di sisi lain, banyak model AI yang memang sering salah mengidentifikasi dirinya atau menggunakan gaya bahasa yang mirip dengan model lain. Hal ini terjadi karena banyak situs konten yang menggunakan AI untuk menghasilkan artikel clickbait.

Meski begitu, beberapa ahli AI seperti Nathan Lambert dari lembaga penelitian nirlaba AI2, merasa masuk akal jika DeepSeek memang menggunakan data dari Gemini.

“Kalau saya di posisi DeepSeek, saya pasti akan membuat banyak data sintetis dari API model terbaik yang tersedia. DeepSeek kekurangan GPU tapi punya banyak uang, jadi ini cara efektif untuk menambah daya komputasi,” tulis Lambert di X.

Sebagai upaya untuk mencegah praktik distillation, perusahaan-perusahaan AI kini mulai memperketat keamanan.

Pada April lalu, OpenAI mulai mewajibkan proses verifikasi identitas bagi organisasi yang ingin mengakses model-model AI canggih mereka. Proses ini mensyaratkan kartu identitas resmi dari negara-negara yang didukung oleh OpenAI dan China tidak termasuk dalam daftar tersebut.

Sementara itu, Google mulai menyembunyikan traces dari model AI yang tersedia di platform pengembang mereka, AI Studio. Langkah ini dimaksudkan agar lebih sulit bagi pihak lain melatih model tandingan dengan meniru cara kerja Gemini.

Leave a Reply

Your email address will not be published. Required fields are marked *