OpenAI bugün bir paylaşım yaptı ve açık olarak “Sky’ın sesi Scarlett Johansson’un bir taklidi değil” dedi.
Peki bu açıklama tam olarak nereden çıktı? Geçtiğimiz hafta ChatGPT için hazırlanan yeni nesil sesli iletişim altyapısında kullanılan asistan sesi, direkt olarak Scarlett Johansson’un 2013 yapımı “Her” filmindeki sesine benzetildi. Johansson o dikkat çeken filmde bir dijital asistanı seslendirmiş ve OpenAI’ın bu sesi kopyaladığı düşünülmüştü. Hatta bunun için hemen aşağıdaki gibi çok sayıda karşılaştırma videosu ve özel haber paylaşılmıştı. Buna bir açıklık getirmek isteyen OpenAI, açık olarak “Sky” adının verildiği bu sesin Scarlett Johansson’un bir taklidi olmadığını belirtti ancak yine de sesi kullanmayı durdurma kararı aldı. Şirket tarafından aktarıldığı kadarıyla ChatGPT için hazırlanan yeni nesil sesli iletişim altyapısında Breeze, Cove, Ember, Juniper ve Sky isimli beş farklı ses sunuluyor. Bu konuda, “Duyduğunuz beş farklı sesin her biri, profesyonel seslendirme sanatçıları, yetenek ajansları, oyuncu yönetmenleri ve sektör danışmanlarının katılımıyla beş ay süren kapsamlı bir süreç sonunda özenle seçildi” diyen şirket, beş farklı ses seçmek için tam 400 farklı başvuruyu değerlendirmiş, yani kolaya kaçarak gidip direkt olarak Johansson’ın sesini kopyalamamış. Süreç hakkında, “Yapay zeka asistanlarının seslerinin ünlülerin sesini kasıtlı olarak taklit etmemesi gerektiğine inanıyoruz. Bu bağlamda Sky’ın sesi de Scarlett Johansson’ın bir taklidi değil, kendi doğal konuşma sesini kullanan farklı bir profesyonel oyuncuya ait. Gizliliklerini korumak için seslendirme sanatçılarımızın isimlerini paylaşamıyoruz.” diyen şirket, gösterdiği yeni sesli altyapı ile herkesi çok ama çok etkilemeyi başarmıştı.
Kaçıranlar için firma geçtiğimiz hafta düzenlenen kısa bir etkinlik kapsamında ilk olarak özel ChatGPT masaüstü uygulamasını (Önce macOS için çıkıyor) duyurdu. Buna ek olarak web arayüzünü yenileyeceklerini de duyuran firma, özellikle yeni geliştirdikleri GPT-4o dil modelinin üstünde durmuştu. Daha akıllı ve 2 kat daha hızlı olduğu belirtilen model, yazı yanında görsel ve işitsel algılama yeteneğine de sahip. Sürpriz şekilde ücretsiz kullanıcılara yani herkese açılacak yeni büyük dil modeli (Ücretsiz kısımda limitler olacak), internetten arama yapabiliyor, 5 kat daha yüksek kapasite sunuyor ve hafıza özelliğini de beraberinde getiriyor.
Sunum kapsamında ChatGPT ile aşağıda izleyebileceğiniz etkileyici bir sesli iletişim demosu da yapılmıştı. Çok doğal bir iletişim sunulan bu “Plus” abonelerine özel olacak yeni işitsel altyapıda, ChatGPT’nin telefon kamerasıyla çevreyi görebildiği ve algılayabildiği de gösterildi. Verilen bir yazılım kodunu algılayarak, kod hakkında bilgi verebilen ve kod hakkında sorulan sorulara cevap vererek karşılıklı olarak sohbet edilebilen sistem, sesli iletişimde araya girilebildiği için gerçekten bir insanla konuşuyormuş hissiyatı oluşturuyor. Gerçek zamanlı çeviri yapabilen ve bu konuda çok iyi olduğu görülen yeni sesli altyapı OpenAI CEO’su Sam Altman’a göre önümüzdeki haftalarda kullanıma çıkıyor.
GPT-4o hakkında Greg Brockman daha fazla bilgiyi aşağıdaki video ile paylaştı: