Google DeepMind, videolar için müzikler ve diyaloglar üreten yapay zeka sistemi geliştiriyor

Can TUNÇER 17 Haziran 2024 22:43 - Güncelleme: 18 Haziran 2024 08:36

Yapay zeka üzerinde çalışmalar yapan Google DeepMind, bu sefer videolar için müzikler ve diyaloglar üreten bir sistem geliştiriyor.

Google DeepMind araştırmacılarının V2A adını verdiği sistem, şu an geliştirme aşamasında yer alıyor. Yazılanlardan videolar üretebilen sistemlerin hızla geliştiğini ancak sadece sessiz içerikler verebildiğini belirten DeepMind araştırmacıları, V2A ile çıktıları işitsel olarak da desteklemek istiyor. Yazılı komutlar ile ses/müzik/diyalog üreten V2A teknolojisinin, videoları analiz edebildiği ve üretilen sesleri herhangi bir açıklama olmadan video ile senkronize edebildiği de belirtiliyor. Tüm rakiplerinden bu oldukça önemli konuda ayrılan model, DeepMind’ın açıklamasına göre yakın bir dönemde halka açık olarak kullanıma alınmayacak.

Bu aralar ses odaklı çok sayıda yapay zeka sistemi gündeme geldi. Örneğin Stability AI geçtiğimiz yıl içinde üretken yapay zeka sistemi Stable Audio 2.0 ile karşımıza çıkmıştı. Bu sistem kişilerin yazılı girdileri üzerinden üç dakikalık müzikler (44.1 kHz) oluşturmasına imkan tanıyor. Müzikleri yazılı komutlar üzerinden oluşturan altyapı, eğer istenirse yüklenen telifsiz müzikleri analiz ederek benzerlerini de oluşturabiliyor. Halen müzisyenleri ve profesyonel ses sanatçıların yerini alacak seviyede olmayan sistem sonrasında Stability AI’dan Stable Audio Open geldi.

Buradaki bağlantıda yer alan Stable Audio Open, açık kaynak tasarlanmış ve yazılı komutlardan 47 saniyeye kadar müzik temelleri ve ses efektleri oluşturabiliyor. 486.000’den fazla örnek kullanılarak eğitildiği aktarılan sistem, özellikle içerik üreticilerin işine oldukça yarayabilir.

Geçtiğimiz hafta da ElevenLabs tarafından yazılı metinlerden ses efektleri üreten bir servis tanıtılmıştı. Oluşturduğu içerikleri buradaki bağlantıda görebileceğiniz sistem, Shutterstock’tan gelen içerikler ile eğitilmiş ve gerçekten kullanılabilir çıktılar verebiliyor. Şu aşamada 22 saniyeye kadar ses efektleri üretebilen sistem, içeriklere insan sesi ile müzik de dahil edebiliyor. Buradaki bağlantıdan ücretsiz olarak kullanılabilen sistem, birçok içerik üreticinin olmazsa olmaz araçları arasına giriş yapabilir.