Yapay zeka alanının öncü isimlerinden biri olan OpenAI, yapay zeka eğitimi için telifli materyalleri serbestçe kullanmak istiyor.
ChatGPT gibi sistemlerin arkasında büyük dil modelleri yer alıyor ve bu modellerin gerçek verilerle eğitilmesi gerekiyor. Bu nedenle yapay zeka şirketleri internet üzerinde bulabildikleri her türlü veriyi kullanıyor ve sürekli olarak daha fazlasına erişim talep ediyor. Gelişmiş yapay zeka modelleri oluşturmak için telifli materyalleri kullanmak isteyen, ancak bunun için içerik üreticilere ödeme yapmak istemeyen şirketlerden biri de ChatGPT’nin yaratıcısı OpenAI. Kısa süre önce ABD hükümetine bir çağrıda bulunan OpenAI, yapay zeka eğitimi için telifli materyallerin serbestçe kullanılmasına izin verilmesini istedi. Şirket aksi takdirde yapay zeka yarışında Çin’in gerisine düşeceklerini savunuyor. OpenAI, telif hakkıyla korunan eserlerin model eğitimi için kullanılmasının “adil kullanım” sayılmaması hâlinde yapay zeka yarışının kaybedileceğini öne sürüyor. Telif hakkıyla korunan materyallerin yapay zeka eğitimi için kullanılması, eserleri “çalınan” sanatçıları, gazetecileri, yazarları ve diğer içerik üreticilerini uzun süredir öfkelendiriyor. Bu konuda OpenAI ve diğer yapay zeka şirketlerine yönelik açılmış çok sayıda dava bulunuyor.
LLM yani ChatGPT gibi sistemlere güç veren büyük dil modelleri artık büyük oranda sentetik veriler kullanılarak eğitiliyor. Güçlü sunucu sistemlerinin yardımıyla elde edebilecekleri gerçek yani insan üretimi verinin hemen hepsine ulaşan yapay zeka firmaları, artık büyük dil modellerini eğitmek için sentetik veriler kullanıyor. Bu durum, yanlış içerikler üretme ve bir hayali bilgiler döngüsü yaratma konusunda ciddi riskler ortaya koyuyor ancak şirketlerin başka şansı bulunmuyor.
Bu konuda, “Gerçek verileri geçtiğimiz yıl içerisinde tükettik” diyen yapay zeka şirketi xAI’ın sahibi Elon Musk, verdiği bir röportaj kapsamında gelecek için, “…Gerçek dünya verilerini desteklemenin tek yolu, yapay zeka tarafından oluşturulan sentetik veriler…” açıklamasını da yapmıştı. Aktarıldığı kadarıyla Microsoft, Meta, OpenAI ve Anthropic gibi şirketler yapay zeka modellerini eğitmek için halihazırda sentetik veriler kullanıyor. Gartner, 2024 yılında yapay zeka ve analitik projeleri için kullanılan verilerin yüzde 60’ının sentetik olarak üretildiğini tahmin ediyor. Microsoft’un yakın zaman önce tanıttığı LLM’i Phi-4 de söylendiği kadarıyla gerçek dünya verilerinin yanı sıra sentetik veriler kullanılarak eğitilmiş.