Meta, milyonlarca kitap içeren büyük bir veri setini torrent üzerinden indirmiş

Can TUNÇER 07 Şubat 2025 11:14 - Güncelleme: 07 Şubat 2025 12:29

Meta, milyonlarca korsan kitap içeren büyük bir veri setini torrent üzerinden indirmiş ve bu veriler yapay zeka modellerinin eğitiminde kullanılmış.

Geçtiğimiz ay Meta, LibGen olarak bilinen ve milyonlarca korsan kitap içeren bir veri setini torrent üzerinden indirdiğini itiraf etmişti. Yeni kanıtlar ise Meta’nın Anna’s Archive üzerinden en az 81,7 terabayt veriyi indirdiğini gösterdi. LibGen’den daha önce 80,6 terabaytlık veri indirdiği de aktarılan şirket, geçtiğimiz yıl “yapay zeka modellerini korsan kitaplar üzerinde yasa dışı olarak eğitme” konusunda dava edilmişti. Geçtiğimiz yıl 8.500’den fazla kişinin imza atarak desteklediği bir bildiride, Meta imzalı LLaMa gibi büyük dil modellerinden güç alan yapay zeka sistemlerinde yazılı eserlerin izinsiz ve ödeme yapılmadan kullanması eleştirilmişti. “Bu teknolojiler dilimizi, hikayelerimizi, üslubumuzu ve fikirlerimizi taklit ediyor. Milyonlarca telifli kitap, makale, deneme ve şiir yapay zeka sistemleri için adeta bir gıda oluyor, onlar faturası olmayan sonsuz yemekler gibi görülüyor” diyen yazarlar, bu sistemleri geliştiren firmaların yayıncılara lisans vermediklerini belirtmiş ve bu konuda zarara uğradıklarını söylemişti.

İLGİNİZİ ÇEKEBİLİR

Temizlikte zirveye çıkan robot süpürge; Ezviz RS20 Pro

Yazarlar, yapay zeka ve büyük dil modeli geliştiren firmalardan şu adımları atmasını talep etmişti:

1. Telif hakkıyla korunan materyallerimizi üretken yapay zeka programlarınızda kullanmak istiyorsanız önce gelin izin alın.
2. Üretken yapay zeka programlarınızda çalışmalarımızın geçmiş ve devam eden kullanımları için yazarlara adil bir şekilde tazminat ödeyin.
3. Yapay zeka sistemleri tarafından sağlanan içerikler mevcut yasaları ihlal etsin ya da etmesin, eserlerimizin yapay zeka sonuçlarında kullanımı oluyorsa yazarları adil bir şekilde tazmin edin.

Bu konu ilk defa paylaşılna bildirimle gündeme gelmedi. OpenAI tarafından geliştirilen ChatGPT, “GPT” adı verilen bir dil modeli ile eğitiliyor ve bu dil modeli için çok sayıda yerden bilgi alınıyor. Bu konumların nereleri olduğu tam olarak bilinmiyor, ancak kısa süre önce açılan davalara göre veriler arasında “torrent” üzerinden elde edilen bilgiler dahi yer alıyor. Bu davaların arkasında ünlü komedyen ve yazar Sarah Silverman‘ın yanı sıra yazarlar Christopher Golden ve Richard Kadrey yer almıştı. Üç isim hem ChatGPT üzerinden OpenAI‘ı hem de “LLaMA” büyük dil modeli üzerinden Meta‘yı telif hakkı ihlali üzerinden dava etmişti.

OpenAI özelinde açılan davanın temelinde, ChatGPT’nin komut verildiği zaman yazarların kitaplarını özetlemesi yer alıyordu. Yazarlar bunun telif haklarını ihlal ettiğini belirtiyor. Meta’ya karşı açılan ayrı bir davada ise, yazarların kitaplarının LLaMA dil modelinin eğitiminde kullanılan veri setlerinde erişilebilir olduğu aktarılıyor. Her iki dava kapsamında da yazarlar, telif hakkıyla korunan kitaplarının şirketlerin yapay zeka modelleri için “eğitim materyali olarak kullanılmasına izin vermediklerini“ söylemiş, üç isim süreç kapsamında yasal tazminatlar ve kâr iadesi istemişti.