Yapay zekâ ile ünlülerin sesini kullanmak çocuk oyuncağı oluyor. AI sistemleri müzik dünyasını da değiştirebilir.
Yapay zekâ sistemleri her şeyi değiştiriyor, bunlar arasında ses ve müzik tarafı da yer alıyor. Bu alan bugün yine gündemde çünkü Roberto Nickson, özel bir yapay zekâ modeli kullanarak Kanye West’in sesini kopyaladı ve bunu nasıl yaptığını aşağıdaki 5 dakikadan kısa videoda gözler önüne serdi. Çok zor olmayan süreç ile ünlü şarkıcının sesi istenilen herhangi bir içerikte (Şarkı ya da dublaj gibi) kullanılabilir hale getirilebiliyor ve bu gerçekten inanılmaz görünüyor. Elbette kötüye kullanıma çok açık olan bu sistem, ileride sanatçıların albümlerini stüdyoya gitmeden dijital olarak kaydedeceği bir geleceğin ön gösterimi konumunda bulunuyor. Fikri mülkiyet ve telif hakkı yasaları kapsamında büyük endişe ve olay yaratacak izlenimi oluşturan bu sistemler, daha şimdiden harika çalışıyor ve yıl bitmeden gelecek teknolojilerin farkı ayırt edilemeyecek seviyeye çıkaracağı aktarılıyor.
Buna benzer bir konu daha önce de gündeme gelmişti. Kısa süre önce ses ve konuşma odaklı yapay zekâ girişimi ElevenLabs, kullanıcılara seslendirme yapabilen, istenirse tamamen yeni sentetik sesler yaratma veya birinin sesini klonlama gücü veren bir platformu beta olarak kullanıma sundu. İşte bu test odaklı aktif edilen sistemi internet dünyasının (Özellikle 4chan’daki kullanıcılar) kötüye kullanması sadece birkaç gün sürdü. Şirket Twitter üzerinden yaptığı zorunlu açıklamada bu kötüye kullanımlara karşı önlem almak zorunda kaldıklarını aktardı. Aktarıldığı kadarıyla 4chan’da bir anda ünlü isimlerin çok kötü şeyler söylediği klipler patladı. Kullanıcılar bu sistemi kullanarak ünlü isimlerin homofobik, transfobik, şiddet içeren ve ırkçı sözler sarf ettiği ses klipleri hazırladı. Biliyorsunuz buna benzer durumlar “deepfake” teknolojisi ilk patladığı zaman da büyük ses getirmişti. Deepfake sayesinde birçok pornografik içeriğe kadın ünlülerin yüzleri eklenmişti.
İLGİNİZİ ÇEKEBİLİR
Yapay zekâ ve ses konusunda bundan önce Microsoft ses getirmişti. Firma geçtiğimiz haftalarda karşımıza VALL-E ile çıktı. Bu sistem metin üzerinden otomatik seslendirme yapılmasına odaklanıyor ve kişilerin sesini sadece 3 saniyelik kayıtlardan analiz ederek uzun seslendirmelerde kullanılabilir hale getirebiliyor. İlk açıklamalara göre sadece 3 saniyelik veri kullanıyor olmasına rağmen robotik değil doğal bir otomatik seslendirme sunabilen sistem, Meta’nın ekim ayında duyurduğu “EnCodec” adlı kodek teknolojisini temel alıyor. Yapay zekâ destekli ses sıkıştırma yöntemi EnCodec, sesi kalite kaybı olmadan ciddi şekilde sıkıştırabiliyor.
VALL-E’yi geliştirme sürecinde Meta’nın verilerinden (Tam 60 bin saatlik konuşma) de yararlanan Microsoft, bu altyapıda özet olarak bir kişinin sesinin konuşma sırasında nasıl çıktığını analiz ediyor, bu bilgiyi kullanılabilir hale getirmek adına ayrı bileşenlere bölüyor ve üç saniyelik örnek dışındaki konuşmanın / sesin nasıl çıkacağını oluşturmak adına beslenen verileri kullanıyor. Kişilerin tonlamalarını ve bulunan ortamdaki akustiği dahi girilen veriden alarak taklit edebildiği aktarılan VALL-E sistemi, henüz geliştirme aşamasında ve gelecek için büyük potansiyeller ortaya koyuyor.