Stability AI firması, kendilerinin en güçlü görsel “yapay zeka” sistemi Stable Diffusion XL 1.0 ile karşımızda bulunuyor.
Peki Stable Diffusion XL 1.0 tam olarak ne yapıyor? Bu Stability AI tarafından toplamda 3,5 milyar parametre üzerine kurulan yapay zeka sistemi, metin olarak yazdıklarınızı görsel hale getiriyor. Bu sistem sayesinde yukarıdaki fotoğrafı, “Kafede, kahve içen bir Panda” komutu üzerinden elde edebiliyorsunuz. DALL-E, Adobe Firefly ve Midjourney gibi sistemler ile benzer klasmanda olan sistem, uzun zamandır geliştiriliyor ve son versiyonu ile daha önce hiç olmadığı kadar güçlü görev yapıyor. Hatta firmanın “bugüne kadarki en gelişmiş modelimiz” dediği sistem, istenirse şu an ClipDrop ve DreamStudio gibi internet siteleri üzerinden denenebiliyor. Açık kaynak versiyonu ise direkt olarak burada yer alan Stable Diffusion, Stability AI tarafından geliştirilen en güçlü model ancak çıktılar halen Midjourney karşısında basit kalıyor. Farklı en-boy oranlarında 1 megapiksellik görseller üretebildiği söylenen sistem, Stability AI tarafından verilen bilgiye göre önceki modele göre daha iyi kontrast, aydınlatma ve gölgelerle beraber daha canlı ve doğru renkler üretebiliyor. Daha basit komutları algılayabildiği aktarılan yani çok spesifik tanımlama gerektirmeyen sistem, eskiye nazaran daha hızlı çalışıyor.
Bu arada yüksek ihtimalle “DALL-E 3” sistemi de yolda bulunuyor. ChatGPT‘nin arkasındaki isim OpenAI tarafından geliştirilen görsel yapay zeka DALL-E’nin yenisi, yapılan bir sızıntı doğruyu gösteriyorsa eskiye nazaran çok daha iyi görseller üretebiliyor. Yine yazılanları görselleştiren sistem için bir kişi, “Midjourney dahi bu seviyeyle rekabet edemez” tarzında çok iddialı bir yorumda bulunuyor. Yıl sonunda çıkacağı söylenen ancak bu henüz kesinleşmeye yeni DALL-E versiyonu, beklendiği gibi çıkarsa alanda oldukça ses getirebilir.