Stability AI, Stable Diffusion 3.5 ile kaliteyi bir üst seviyeye taşıdı

Can TUNÇER 23 Ekim 2024 09:37 - Güncelleme: 23 Ekim 2024 11:36

Üretken yapay zeka alanının önemli isimlerinden olan Stability AI, Stable Diffusion 3.5 ile kaliteyi bir üst seviyeye taşıdı.

Stability AI imzalı Stable Diffusion 3.5 altında Large (8B), Large Turbo (8B) ve Medium (2.6B) olmak üzere üç farklı model sunuluyor. Bu özelleştirilebilir modeller standart donanımlarda kullanılabiliyor ve yazılanlar üzerinden oldukça gerçekçi görseller üretilebiliyor. “Haziran ayında çıkan Stable Diffusion 3 Medium modeli standartlarımızı ve topluluğumuzun beklentilerini tam olarak karşılamadı” diyen Stability AI, yeni sürüm için, “Topluluğumuzun değerli geri bildirimlerini dinledikten sonra, hızlı bir düzeltme yerine, görsel üretimini dönüştürme misyonumuzu ileriye taşıyan bir sürüm geliştirmek için zaman ayırdık.” açıklamasını yaptı. Stable Diffusion 3.5’in en güçlü modelleri olduğunu belirten şirket, hızlı çalıştığı aktarılan yeni modelde daha fazla stilistik seçim sunuyor ve daha önce hiç olmadığı seviyede gerçekçi görseller üretebiliyor.

İLGİNİZİ ÇEKEBİLİR

Temizlikte zirveye çıkan robot süpürge; Ezviz RS20 Pro

Stability AI, bundan önce Stable Diffusion 3 Medium (SD3M) ile gündemde çok ses getirmişti. Yazılanlardan görseller üreten yapay zeka sistemleri çıktıkları günden bu yana insan ellerini/parmaklarını üretmede zorluk çekiyor. Yeni modellerde durum daha iyi hale getirildi ancak hala mükemmel bir seviye elde edilemedi. Bu konuyu en son gündeme getiren ise Stable Diffusion 3 Medium (SD3M) modeli olmuştu. Stability AI’ın, “Bugüne kadarki en sofistike görüntü oluşturma modelimiz.” dediği model, içerisinde insanların olduğu görselleri üretmede büyük zorluklar yaşıyordu. Bu yüzden dalga konusu haline gelen SD3M, içerisinde insanların olmadığı görsellerde ise yüksek bir kalite ortaya koyuyordu:

Stability AI görsel yanında ses tarafında da yer alıyor. Şirket geçtiğimiz dönemde ilk olarak üretken yapay zeka sistemi Stable Audio 2.0 ile karşımıza çıkmıştı. Bu sistem kişilerin yazılı girdileri üzerinden üç dakikalık müzikler (44.1 kHz) oluşturmasına imkan tanıyordu. Müzikleri yazılı komutlar üzerinden oluşturan altyapı, eğer istenirse yüklenen telifsiz müzikleri analiz ederek benzerlerini de oluşturabiliyordu. Halen müzisyenleri ve profesyonel ses sanatçıların yerini alacak seviyede olmayan sistem sonrasında Stable Audio Open gelmiş. Buradaki bağlantıda yer alan Stable Audio Open, açık kaynak tasarlanmış ve yazılı komutlardan 47 saniyeye kadar müzik temelleri ve ses efektleri oluşturabiliyor. 486.000’den fazla örnek kullanılarak eğitildiği aktarılan sistem, özellikle içerik üreticilerin işine oldukça yarayabilir.