Dünyanın en büyük yazılım firmalarından olan Microsoft, “VASA-1” yapay zeka sistemiyle portre fotoğrafları canlandırabiliyor.
Son dönemde yapay zeka tarafına büyük önem veren Microsoft imzalı “VASA-1”, kendi kategorisinin en güçlü seçeneği olarak bugün çok dikkat çekmeyi başardı. Neler yapabildiğini hemen aşağıdaki X paylaşımında görebileceğiniz yapay zeka sistemi, içerisine yüklenen porte fotoğrafını alıyor ve onu analiz ederek video formatında konuşur hale getirebiliyor. Burada inanılmaz yüksek bir gerçeklik seviyesine ulaşan ve daha önceki sistemleri açık ara geride bırakan sistem, henüz herkese açık değil çünkü kötü kullanım riski şu aşamada oldukça yüksek seviyede yer alıyor. Verilen ses dosyasını analiz ederek dudak hareketlerini de uyumlu hale getiren teknoloji, farklı duygu durumlarını da simüle edebiliyor ve üçüncü boyuta geçerek sadece mimikler değil kafa hareketlerini de oluşturabiliyor.
Microsoft just dropped VASA-1.
This AI can make single image sing and talk from audio reference expressively. Similar to EMO from Alibaba
10 wild examples:
1. Mona Lisa rapping Paparazzi pic.twitter.com/LSGF3mMVnD
— Min Choi (@minchoi) April 18, 2024
Bu konuda bundan önce Google, VLOGGER sistemiyle dikkat çekmişti. Google araştırmacıları tarafından hazırlanan ve şimdilik bir araştırma projesi olarak karşımıza çıkarılan VLOGGER, yüklenen fotoğraflardaki kişileri algılıyor ve onları konuşma özelinde hareketli hale getirebiliyor. Bu sistem sayesinde kişiler sadece tek bir fotoğrafı kullanarak gerçekçi şekilde konuşan sanal versiyonlarını oluşturabiliyor ve video formatında çıktı alabiliyor. Şimdilik halen mükemmel olmayan sistem, girilen kayıt üzerinden kişilerin sesini de oluşturabiliyor.
Biraz daha geliştirilmesi halinde büyük kapılar açabilecek güçte olan sistem, kötüye kullanım konusunda bazı endişeler uyandırıyor ancak bu konuda birçok önlem üzerinde çalışıldığı da aktarılıyor. İyi bir sonuç için özel bir yapay zeka model eğitimi gerektirmeyen sistem, aktarıldığı kadarıyla 800.000’den fazla farklı kişi ve 2.200 saatlik video içeren MENTOR adlı bir veri seti üzerinden geliştiriliyor. Oyunlardan içerik üretimine ve sanal gerçeklik tarafına kadar çok sayıda alanda kullanılabilecek sistem üzerinde çalışmaların devam edeceği bildiriliyor.