Bugün, yüklenen fotoğrafları video haline getirebilen yeni sistem Stable Video Diffusion ses getiriyor. Bunun arkasında Stability AI yer alıyor.
Yazarak görsel üretme odaklı Stable Diffusion ile tanınan Stability AI tarafından geliştirilen Stable Video Diffusion, açık kaynak yapıda iki farklı üretken yapay zeka modelini bir araya getiriyor ve Nvidia ekran kartına sahip sistemlerde lokal olarak kullanılabiliyor. Bu sistem içerisine yüklenen fotoğrafları analiz ediyor ve onlardan 4 saniye kadar kısa videolar oluşturabiliyor. Yukarıda görebileceğiniz üzere hazırladığı videolardaki kişileri ya da objeleri hareket eder hale getirebilen ya da direkt olarak fonu hareketlendirebilen sistem, şimdilik çok kısıtlı bir kullanım alanı sunuyor ve şu aşamada ilk seviye test denemeleri yapılıyor. Yani denemeler sürdükçe altyapı gelişecek ve çok daha uzun videolar çıkarmaya başlayacak. Bu konuda başka örnekler de bulunuyor, onlardan birisi yazılanlardan video oluşturabilen yapay zeka sistemi Gen-2 oluyor. Runway tarafından geliştirilen sistemin tanıtım videosu burada, daha önce aktardığımız detayları ise burada yer alıyor.
Bu konuda daha önce çok ses getiren bir Will Smith videosu olmuş, bu video komik ve bir o kadar da ürkütücü bir tarafa sahipti. Bu videoda Smith’in spagetti yemesi inanılmaz garip bir şekilde simüle ediliyor, video spesifik olarak “Chaindrop” adlı Reddit kullanıcısından geliyordu.
Aktarıldığı kadarıyla 20 saniyelik aşağıdaki video için birbirinden bağımsız olarak oluşturulmuş 10 adet iki saniyelik bölüm bir araya getirilmiş. Her bir bölüm simüle edilmiş Will Smith’in açgözlülükle spagetti yemesini farklı açılarda gözler önüne seriyor, sürecin arkasında geliştirme aşamasında olan bir altyapı bulunuyor.
Videonun Alibaba’nın bir araştırma bölümü olan DAMO Vision Intelligence Lab tarafından hazırlanan ModelScope adlı yapay zekâ aracı üzerinde hazırlandığı aktarılıyor. ModelScope, “LAION5B, ImageNet ve Webvid” gibi veri tabanlarındaki milyonlarca fotoğraf ve binlerce videoyu analiz ederek, yazılan metinlerden videolar oluşturmak üzere eğitilmiş bir “text2video” modelini temel alıyor.