Yazılanları görsel hale getiren Stable Diffusion 3 duyuruldu

Can TUNÇER 23 Şubat 2024 09:36

Yazılanları görsel hale getiren en yeni sistemi Stable Diffusion 3 oldu. Sistem özellikle metin üretimi konusunda çok iyi görünüyor.

Stability AI alandaki çalışmalarına hız kesmiyor. Resmi olarak duyurusu yapılan Stable Diffusion 3, firmanın özellikle MidJourney karşısına çıkardığı yeni yazıdan görsele yapay zeka modeli ve kalite ile performansı oldukça artırıyor. Yeni bir mimari ve yeni geliştirilen farklı teknikler üzerine kurulduğu aktarılan sistem, henüz herkes tarafından denenemiyor ancak deneme şansı elde edenleri oldukça etkilemişe benziyor. Özellikle görsel içi yazı / metin üretimi konusunda çok iyi olduğu aktarılan (Birçok yazıdan görsele yapay zeka sistemi halen yazı üretiminde oldukça zorlanıyor) sistem, eski modelden farklı olarak kompleks girdileri daha iyi şekilde üretebiliyor. Yeni model hakkında, “Stable Diffusion 3’ün kötü niyetli kişiler tarafından kötüye kullanılmasını önlemek için önemli adımlar attık ve atmaya devam ediyoruz” açıklamasını yapan firma, SD3’ü ne zaman herkese açacak henüz belli olmuş değil. Sisteme erişim sağlayanların paylaştığı bazı örnekleri direkt olarak burada ya da hemen aşağıdaki paylaşımın yorumlarında görebilirsiniz.

Announcing Stable Diffusion 3, our most capable text-to-image model, utilizing a diffusion transformer architecture for greatly improved performance in multi-subject prompts, image quality, and spelling abilities.
Today, we are opening the waitlist for early preview. This phase… pic.twitter.com/FRn4ofC57s
— Stability AI (@StabilityAI) February 22, 2024

Bundan önce Stability AI tarafından hazırlanan üretken yapay zeka sistemi Stable Diffusion XL Turbo gündeme gelmişti. Metin olarak yazdıklarınızı görsel hale getiren sistem, bunu daha siz yazarken anlık olarak yapabiliyor olmasıyla dikkat çekmişti. Normalde “yazıdan-görsele” sistemler hemen sonuç veremiyor, içeriğin oluşturulması için biraz beklenmesi gerekiyor.

Bunu değiştiren yeni model aktarıldığı kadarıyla Stable Diffusion XL’dan farklı olarak 20 hatta 50 adım üzerinden değil tek bir adım üzerinden üretim yapıyor, işte tam olarak bu sayede gerçek zamanlı olarak çalışabiliyor. Bunun elbette olumsuz bir yanı oluyor, XL Turbo’nun sonuçları XL kadar büyük ve detaylı olmuyor.

En son ise Stable Cascade ses getirmişti. Stable Diffusion’dan daha kaliteli ve hızlı sonuçlar verebilen yeni sistem, gösterilen örneklere bakılırsa gerçekten çok “gerçekçi” sonuçlar ortaya koyabiliyor. Üretilen bir görsel için benzer yapıda farklı varyasyonlar da sunan sistem, şu an ticari kullanım haricindeki durumlar için GitHub üzerinden elde edilerek denenebiliyor.

Stable Diffusion’dan farklı olarak tek bir büyük dil modeli değil Würstchen mimarisine dayanan üç farklı modeli temel alan Stable Cascade, tam olarak bu sayede performansı artırıyor çünkü üretimi farklı modeller üzerinden parçalara bölüyor.