Haber

Stability AI, yeni görsel modeliyle ciddi bir “insan” sorunu yaşıyor

Can TUNÇER 14 Haziran 2024 11:33

Üretken yapay zeka alanının önemli isimlerinden olan Stability AI, yayınladığı yeni görsel modeliyle ciddi bir “insan” sorunu yaşıyor.

Yazılanlardan görseller üreten yapay zeka sistemleri çıktıkları günden bu yana insan ellerini/parmaklarını üretmede zorluk çekiyor. Yeni modellerde durum daha iyi hale getirildi ancak hala mükemmel bir seviye elde edilemedi. Bu konuyu şimdi gündeme getiren ise Stable Diffusion 3 Medium (SD3M) modeli oldu. Stability AI’ın, “Bugüne kadarki en sofistike görüntü oluşturma modelimiz.” dediği yeni model, içerisinde insanların olduğu görselleri üretmede büyük zorluklar taşıyor. Bu yüzden dalga konusu haline gelen SD3M, içerisinde insanların olmadığı görsellerde ise yüksek bir kalite ortaya koyuyor. Firmanın ciddi bir güncelleme yapması gereken yeni model, denemek istiyorsanız buradaki bağlantıdan elde edilebiliyor. Stability AI bundan önce ses efektleri için “Stable Audio Open” isimli bir hizmet hazırlamasıyla dikkat çekmişti. Şirket geçtiğimiz yıl içinde üretken yapay zeka sistemi Stable Audio 2.0 ile karşımıza çıkmıştı. Bu sistem kişilerin yazılı girdileri üzerinden üç dakikalık müzikler (44.1 kHz) oluşturmasına imkan tanıyor. Müzikleri yazılı komutlar üzerinden oluşturan altyapı, eğer istenirse yüklenen telifsiz müzikleri analiz ederek benzerlerini de oluşturabiliyor. Halen müzisyenleri ve profesyonel ses sanatçıların yerini alacak seviyede olmayan sistem sonrasında Stability AI’dan Stable Audio Open geldi. Buradaki bağlantıda yer alan Stable Audio Open, açık kaynak tasarlanmış ve yazılı komutlardan 47 saniyeye kadar müzik temelleri ve ses efektleri oluşturabiliyor. 486.000’den fazla örnek kullanılarak eğitildiği aktarılan sistem, özellikle içerik üreticilerin işine oldukça yarayabilir.

Geçtiğimiz hafta da ElevenLabs tarafından yazılı metinlerden ses efektleri üreten bir servis tanıtılmıştı. Oluşturduğu içerikleri buradaki bağlantıda görebileceğiniz sistem, Shutterstock’tan gelen içerikler ile eğitilmiş ve gerçekten kullanılabilir çıktılar verebiliyor. Şu aşamada 22 saniyeye kadar ses efektleri üretebilen sistem, içeriklere insan sesi ile müzik de dahil edebiliyor. Buradaki bağlantıdan ücretsiz olarak kullanılabilen sistem, birçok içerik üreticinin olmazsa olmaz araçları arasına giriş yapabilir.