Sebelumnya banyak laporan yang mengklaim bahwa OpenAI menggunakan konten YouTube untuk melatih model teks-ke-video model AI Sora. Kini dilaporkan bahwa perusahaan seperti Apple, Nvidia, Anthropic, dan banyak lagi juga menggunakan data yang tersedia untuk umum yang dihasilkan oleh pengguna untuk melatih model AI mereka.
Rupanya, Apple menggunakan puluhan ribu video YouTube dengan subtitle untuk melatih Apple Intelligence, yang bertentangan dengan kebijakan konten platform.
Dilansir detiKINET dari Gizmochina, Kamis (18/7/2024) berdasarkan penyelidikan, Apple dan perusahaan lain menggunakan kumpulan data yang disebut YouTube Subtitles yang mencakup transkrip 173.536 video YouTube dari lebih dari 48.000 saluran.
SCROLL TO CONTINUE WITH CONTENT
Video dalam dataset tersebut mencakup saluran pendidikan seperti Khan Academy dan MIT hingga situs berita seperti The Wall Street Journal, hingga beberapa kreator papan atas seperti MrBeast dan Marques Brownlee.
Menurut Marques Brownlee, Apple secara teknis menghindari kesalahan karena mereka mendapatkan sumber AI dari perusahaan yang menggunakan transkrip dari video YouTube, bukan menggunakan data secara langsung.
Meskipun demikian, data/transkrip tersebut tetap berkontribusi pada model AI, di mana para kreator menginvestasikan waktu dan uang mereka. Brownlee menyimpulkan dengan mengatakan bahwa hal ini akan menjadi masalah yang terus berkembang untuk waktu yang lama.
Proof News juga menciptakan alat bagi para kreator untuk mencari konten mereka di dataset. Dataset Subtitle YouTube tidak menyertakan gambar dari video tetapi menyertakan beberapa subtitle terjemahan dalam berbagai bahasa.
Dataset ini dilaporkan dibuat oleh laboratorium penelitian nirlaba bernama Eleuther AI, yang berfokus untuk mempromosikan norma-norma ilmu pengetahuan terbuka.
Tidak satu pun dari perusahaan yang disebutkan di atas yang segera mengomentari masalah ini. Kepala eksekutif YouTube, Neal Mohan, telah menjelaskan dalam sebuah wawancara bahwa perusahaan yang menggunakan video YouTube untuk melatih model AI mereka adalah pelanggaran yang jelas terhadap kebijakan platform.
(jsn/jsn)