reklamı kapat

POPÜLER

Yapay zekâ LOG Tasarım

Ses odaklı bir yapay zekâ sisteminin kötüye kullanılması çok kısa sürdü

 - Güncelleme: 31 Ocak 2023 21:20

İnternet dünyasının ses odaklı geliştirilen güzel bir yapay zekâ sistemini kötüye kullanması çok kısa sürdü.

Kısa süre önce ses ve konuşma odaklı yapay zekâ girişimi ElevenLabs, kullanıcılara seslendirme yapabilen, istenirse tamamen yeni sentetik sesler yaratma veya birinin sesini klonlama gücü veren bir platformu beta olarak kullanıma sundu. İşte bu test odaklı aktif edilen sistemi internet dünyasının (Özellikle 4chan’daki kullanıcılar) kötüye kullanması sadece birkaç gün sürdü. Şirket Twitter üzerinden yaptığı zorunlu açıklamada bu kötüye kullanımlara karşı önlem almak zorunda kaldıklarını aktardı. Aktarıldığı kadarıyla 4chan’da bir anda ünlü isimlerin çok kötü şeyler söylediği klipler patladı. Kullanıcılar bu sistemi kullanarak ünlü isimlerin homofobik, transfobik, şiddet içeren ve ırkçı sözler sarf ettiği ses klipleri hazırladı. Biliyorsunuz buna benzer durumlar “deepfake” teknolojisi ilk patladığı zaman da büyük ses getirmişti. Deepfake sayesinde birçok pornografik içeriğe kadın ünlülerin yüzleri eklenmişti.

Yapay zekâ ve ses konusunda bundan önce Microsoft ses getirdi. Firma geçtiğimiz haftalarda karşımıza VALL-E ile çıktı. Bu sistem metin üzerinden otomatik seslendirme yapılmasına odaklanıyor ve kişilerin sesini sadece 3 saniyelik kayıtlardan analiz ederek uzun seslendirmelerde kullanılabilir hale getirebiliyor. İlk açıklamalara göre sadece 3 saniyelik veri kullanıyor olmasına rağmen robotik değil doğal bir otomatik seslendirme sunabilen sistem, Meta’nın ekim ayında duyurduğu “EnCodec” adlı kodek teknolojisini temel alıyor. Yapay zekâ destekli ses sıkıştırma yöntemi EnCodec, sesi kalite kaybı olmadan ciddi şekilde sıkıştırabiliyor.

VALL-E’yi geliştirme sürecinde Meta’nın verilerinden (Tam 60 bin saatlik konuşma) de yararlanan Microsoft, bu altyapıda özet olarak bir kişinin sesinin konuşma sırasında nasıl çıktığını analiz ediyor, bu bilgiyi kullanılabilir hale getirmek adına ayrı bileşenlere bölüyor ve üç saniyelik örnek dışındaki konuşmanın / sesin nasıl çıkacağını oluşturmak adına beslenen verileri kullanıyor. Kişilerin tonlamalarını ve bulunan ortamdaki akustiği dahi girilen veriden alarak taklit edebildiği aktarılan VALL-E sistemi, henüz geliştirme aşamasında ve gelecek için büyük potansiyeller ortaya koyuyor.

Yapay zekâ sistemi yanında bu da ilginizi çekebilir: Renault tarafından hazırlanan uçan araç çalışması