WhatsApp, Instagram ve Facebook’un çatı şirketi Meta, bugün ses odaklı yapay zeka sistemi Voicebox’u duyurdu.
Yapay zekâ sistemleri her şeyi değiştiriyor, bunlar arasında ses ve müzik tarafı da yer alıyor. Bu alanda bugün ses getiren ise Meta imzalı Voicebox oldu. Yazılanları müziğe dönüştüren MusicGen sonrasında karşımıza çıkarılan yeni sistem, direkt olarak Meta CEO’su Mark Zuckerberg tarafından duyuruldu. Şirketin henüz herkese açmadığı bu sistem, yazılanları gerçek insan konuşmaları (Şimdilik altı farklı dilde) haline getirebiliyor. Yapılan açıklamaya göre sistem 50 bin saatten fazla ses kullanılarak eğitilmiş. Gösterilen ilk örneklerden çok iyi çalıştığı görülen sistem, yazılanları sesli hale getirmesi yanında içerisine yüklenen sesleri temizleyebiliyor. Burada ses kaydına giren köpek havlaması ya da otomobil kornası gibi istenmeyen gürültüler saniyeler içerisinde yapay zeka tarafından temizlenebiliyor. Şimdilik geliştirme aşamasında olan sistem, ileride herkesin kullanımına açılabilir. Nasıl çalıştığı buradaki videoda net olarak gözler önüne serilen altyapı için “Gelecekte, Voicebox gibi çok amaçlı üretken yapay zeka modelleri sanal asistanlara ve Metaverse’deki NPC karakterlere doğal sesler verebilir.” açıklamasını yapan Meta, aynı zamanda şunları da aktardı: “Voicebox, görme engelli kişilerin arkadaşlarından gelen yazılı mesajları yapay zeka tarafından kendi sesleriyle okunurken duymalarını sağlayabilir, içerik oluşturuculara videolar için kolayca ses parçaları oluşturmaları ve düzenlemeleri için yeni araçlar sunabilir ve çok daha fazlasını yapabilir.”
Yapay zeka ve ses çözümleri konusu elbette ilk defa gündeme gelmiyor. Örneğin geçtiğimiz aylarda ses ve konuşma odaklı yapay zekâ girişimi ElevenLabs, kullanıcılara seslendirme yapabilen, istenirse tamamen yeni sentetik sesler yaratma veya birinin sesini klonlama gücü veren bir platformu beta olarak kullanıma sundu. İşte bu test odaklı aktif edilen sistemi internet dünyasının (Özellikle 4chan’daki kullanıcılar) kötüye kullanması sadece birkaç gün sürdü. Şirket Twitter üzerinden yaptığı zorunlu açıklamada bu kötüye kullanımlara karşı önlem almak zorunda kaldıklarını aktardı. Aktarıldığı kadarıyla 4chan’da bir anda ünlü isimlerin çok kötü şeyler söylediği klipler patladı. Kullanıcılar bu sistemi kullanarak ünlü isimlerin homofobik, transfobik, şiddet içeren ve ırkçı sözler sarf ettiği ses klipleri hazırladı. Biliyorsunuz buna benzer durumlar “deepfake” teknolojisi ilk patladığı zaman da büyük ses getirmişti. Deepfake sayesinde birçok pornografik içeriğe kadın ünlülerin yüzleri eklenmişti.
Yapay zekâ ve ses konusunda bundan önce Microsoft da ses getirmişti. Firma geçtiğimiz haftalarda karşımıza VALL-E ile çıktı. Bu sistem metin üzerinden otomatik seslendirme yapılmasına odaklanıyor ve kişilerin sesini sadece 3 saniyelik kayıtlardan analiz ederek uzun seslendirmelerde kullanılabilir hale getirebiliyor. İlk açıklamalara göre sadece 3 saniyelik veri kullanıyor olmasına rağmen robotik değil doğal bir otomatik seslendirme sunabilen sistem, Meta’nın ekim ayında duyurduğu “EnCodec” adlı kodek teknolojisini temel alıyor. Yapay zekâ destekli ses sıkıştırma yöntemi EnCodec, sesi kalite kaybı olmadan ciddi şekilde sıkıştırabiliyor.
VALL-E’yi geliştirme sürecinde Meta’nın verilerinden (Tam 60 bin saatlik konuşma) de yararlanan Microsoft, bu altyapıda özet olarak bir kişinin sesinin konuşma sırasında nasıl çıktığını analiz ediyor, bu bilgiyi kullanılabilir hale getirmek adına ayrı bileşenlere bölüyor ve üç saniyelik örnek dışındaki konuşmanın / sesin nasıl çıkacağını oluşturmak adına beslenen verileri kullanıyor. Kişilerin tonlamalarını ve bulunan ortamdaki akustiği dahi girilen veriden alarak taklit edebildiği aktarılan VALL-E sistemi, henüz geliştirme aşamasında ve gelecek için büyük potansiyeller ortaya koyuyor.