Nvidia, yazılanları “video” haline getiren yapay zekâ sistemi ile gündemde

24 Nisan 2023 12:04

Ekran kartı devi Nvidia, “yazılanları video” haline getiren yapay zekâ sistemi ile gündemde yer alıyor. Bu tarafa büyük ilerleme elde edildi.

Bu aralar teknoloji dünyasının en büyük gündem konusu yapay zekâ oluyor. Yeni nesil “üretken” yapıdaki sistemler hem teknik hem de görsel olarak yeni kapıları aralıyor, bunlar arasında video tarafı da yer alıyor. Bu konuda aktif olarak çalışmalar yapan büyük isimlerden Nvidia, Latent Diffusion Model (LDM) temelli sistemiyle yazılanları şimdiye kadar gördüklerimizden çok daha iyi şekilde video haline getirebiliyor. Halen fotoğraf tarafındaki üretken yapay zekâ sistemlerinin sağladığı kaliteye (Örneğin MidJourney) ulaşılmış değil ancak hemen aşağıdaki örnekler gelecek için inanılmaz bir potansiyel ortaya koyuyor. IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2023 kapsamında sergilenen altyapı, çok sayıdaki fotoğraf ile videonun kullanıldığı büyük veri tabanları kullanıyor, bunları analiz eden sistemle şimdilik 1280×2048 piksel videolar oluşturulabiliyor. Elbette üzerinde çalışmalar sürecek sistem, gelecekte gerçek anlamda kullanıma girebilir ve video üretim sürecini temelli olarak değiştirebilir. Yakın gelecekte yapay zekâ tarafından üretilen videoları ayırt etmek imkânsız hale gelebilir.

Bu konuda geçtiğimiz ay çok ses getiren içerik ise aşağıda izleyebileceğiniz Will Smith videosu olmuş, bu video hem komik ve hem de ürkütücü bulunmuştu. Bu videoda Smith’in spagetti yemesi inanılmaz garip bir şekilde simüle ediliyor, video spesifik olarak “Chaindrop” adlı Reddit kullanıcısından geliyor. Aktarıldığı kadarıyla 20 saniyelik aşağıdaki video için birbirinden bağımsız olarak oluşturulmuş 10 adet iki saniyelik bölüm bir araya getirilmiş. Her bir bölüm simüle edilmiş Will Smith’in açgözlülükle spagetti yemesini farklı açılarda gözler önüne seriyor, sürecin arkasında geliştirme aşamasında olan bir altyapı bulunuyor.

Videonun Alibaba’nın bir araştırma bölümü olan DAMO Vision Intelligence Lab tarafından hazırlanan ModelScope adlı yapay zekâ aracı üzerinde hazırlandığı aktarılıyor. ModelScope, “LAION5B, ImageNet ve Webvid” gibi veri tabanlarındaki milyonlarca fotoğraf ve binlerce videoyu analiz ederek, yazılan metinlerden videolar oluşturmak üzere eğitilmiş bir “text2video” modelini temel alıyor. Bu sistem Shutterstock’tan gelen videoları dahi analiz ediyor, bu yüzden paylaşılan videoda Shutterstock’un koruma amaçlı logosu da görünüyor. Birçok yapay zekâ sistemi bu logoları halen tam olarak ortadan kaldıramıyor, bu logolar yüzünden dava edilen firmalar bulunuyor.

 

Yapay zekâ merkezli Will Smith videosu yanında bu da ilginizi çekebilir: İnsansı robot Ameca ve yapabildikleri

Paylaş