Çinli teknoloji devlerinden Alibaba, GPT-4o, DeepSeek-V3 ve Llama-3.1-405B’yi geride bırakan Qwen 2.5-Max modelini duyurdu.
Reuters’te yer alan habere göre Alibaba, yeni yapay zeka modeli için yaptığı paylaşımda, “Qwen 2.5-Max, neredeyse tüm alanlarda OpenAI imzalı GPT-4o, DeepSeek imzalı V3 ve Meta imzalı Llama-3.1-405B’den daha iyi performans gösteriyor” dedi. Yapay zeka konusunda hem Çin’de hem de Çin ile Amerika Birleşik Devletleri arasında inanılmaz bir yarış başladı.
Bu aralar DeepSeek gündemden düşmüyor. ChatGPT gibi çalışan “AI Asistan” isimli mobil uygulaması dün App Store’un en popüler ücretsiz uygulaması (Türkiye dahil) olan DeepSeek, bugün gelen bilgilere göre R1 adı verilen LLM’ini Nvidia H800 kullanarak eğitti. R1’in şu anda verdiği cevaplar ise aktarıldığı kadarıyla Huawei Ascend 910C çiplerin kullanıldığı özel sunucu sistemlerinden geliyor. DeepSeek, GPU konusunda bir ABD ambargosu altında olmalarına rağmen burada test edilebilen “R1” modelinin OpenAI’ın “01” modelinden daha iyi sonuç verdiğini belirtiyor.
Şirkete göre R1, AIME, MATH-500 ve SWE-bench Verified kıyaslamalarında o1’i geride bırakıyor, birçok testte ise benzer performans ortaya koyuyor. 671 milyar parametreye sahip olan R1’in, 1,5 milyar parametre ile 70 milyar parametre arasında değişen özel versiyonları da bulunuyor. En küçük modelin bir dizüstü bilgisayarda çalıştırılabildiği, R1’in tam kapasiteli versiyonunun ise hem eğitim hem de tam kapasiteli kullanımda OpenAI’dan çok daha “ucuz” olduğu ifade ediliyor.