İnternet dünyasının ses odaklı geliştirilen güzel bir yapay zekâ sistemini kötüye kullanması çok kısa sürdü.
Kısa süre önce ses ve konuşma odaklı yapay zekâ girişimi ElevenLabs, kullanıcılara seslendirme yapabilen, istenirse tamamen yeni sentetik sesler yaratma veya birinin sesini klonlama gücü veren bir platformu beta olarak kullanıma sundu. İşte bu test odaklı aktif edilen sistemi internet dünyasının (Özellikle 4chan’daki kullanıcılar) kötüye kullanması sadece birkaç gün sürdü. Şirket Twitter üzerinden yaptığı zorunlu açıklamada bu kötüye kullanımlara karşı önlem almak zorunda kaldıklarını aktardı. Aktarıldığı kadarıyla 4chan’da bir anda ünlü isimlerin çok kötü şeyler söylediği klipler patladı. Kullanıcılar bu sistemi kullanarak ünlü isimlerin homofobik, transfobik, şiddet içeren ve ırkçı sözler sarf ettiği ses klipleri hazırladı. Biliyorsunuz buna benzer durumlar “deepfake” teknolojisi ilk patladığı zaman da büyük ses getirmişti. Deepfake sayesinde birçok pornografik içeriğe kadın ünlülerin yüzleri eklenmişti.
Crazy weekend – thank you to everyone for trying out our Beta platform. While we see our tech being overwhelmingly applied to positive use, we also see an increasing number of voice cloning misuse cases. We want to reach out to Twitter community for thoughts and feedback!
— ElevenLabs (@elevenlabsio) January 30, 2023
İLGİNİZİ ÇEKEBİLİR
Yapay zekâ ve ses konusunda bundan önce Microsoft ses getirdi. Firma geçtiğimiz haftalarda karşımıza VALL-E ile çıktı. Bu sistem metin üzerinden otomatik seslendirme yapılmasına odaklanıyor ve kişilerin sesini sadece 3 saniyelik kayıtlardan analiz ederek uzun seslendirmelerde kullanılabilir hale getirebiliyor. İlk açıklamalara göre sadece 3 saniyelik veri kullanıyor olmasına rağmen robotik değil doğal bir otomatik seslendirme sunabilen sistem, Meta’nın ekim ayında duyurduğu “EnCodec” adlı kodek teknolojisini temel alıyor. Yapay zekâ destekli ses sıkıştırma yöntemi EnCodec, sesi kalite kaybı olmadan ciddi şekilde sıkıştırabiliyor.
VALL-E’yi geliştirme sürecinde Meta’nın verilerinden (Tam 60 bin saatlik konuşma) de yararlanan Microsoft, bu altyapıda özet olarak bir kişinin sesinin konuşma sırasında nasıl çıktığını analiz ediyor, bu bilgiyi kullanılabilir hale getirmek adına ayrı bileşenlere bölüyor ve üç saniyelik örnek dışındaki konuşmanın / sesin nasıl çıkacağını oluşturmak adına beslenen verileri kullanıyor. Kişilerin tonlamalarını ve bulunan ortamdaki akustiği dahi girilen veriden alarak taklit edebildiği aktarılan VALL-E sistemi, henüz geliştirme aşamasında ve gelecek için büyük potansiyeller ortaya koyuyor.
Yapay zekâ sistemi yanında bu da ilginizi çekebilir: Renault tarafından hazırlanan uçan araç çalışması