Yapay zeka alanının en önemli isimlerinden olan OpenAI, ChatGPT’nin yeni sesli altyapısının ertelediğini duyurdu.
OpenAI yakın zaman önce ChatGPT için çok etkileyici bir “Voice Mode” tanıtımı yaptı. Çok doğal bir iletişim sunulan bu yeni işitsel altyapıda, ChatGPT’nin telefon kamerasıyla çevreyi görebildiği ve algılayabildiği de gösterildi. Verilen bir yazılım kodunu algılayarak, kod hakkında bilgi verebilen ve kod hakkında sorulan sorulara cevap vererek karşılıklı olarak sohbet edilebilen sistem, sesli iletişimde araya girilebildiği için gerçekten bir insanla konuşuyormuş hissiyatı oluşturuyor. Gerçek zamanlı çeviri yapabilen ve bu konuda çok iyi olduğu görülen yeni sesli altyapı, bugün ufak bir gecikme gördü. X üzerinde paylaşım yapan şirket, “Bu altyapıyı haziran sonunda küçük bir ChatGPT Plus kullanıcı grubuna “alfa” olarak sunmayı planlamıştık. Ancak sistemin istediğimiz seviyeye gelmesi için bir aya daha ihtiyacımız var. Modelin belirli içerikleri tespit etme ve reddetme becerisini geliştiriyoruz. Ayrıca kullanıcı deneyimini iyileştirmek ve altyapımızı milyonlarca kullanıcının yanıtları gerçek zamanlı olarak alabilmesini sağlamak için iyileştiriyoruz.” dedi.
OpenAI bu yeni sesli altyapı ile Scarlett Johansson’u hiç memnun etmemişti. Şirket geçtiğimiz ay bir paylaşım yaparak Sky’ın sesi Scarlett Johansson’un bir taklidi değil” demişti. Bunun üstüne olay büyüdü. Bu açıklama tam olarak nereden çıkmıştı? Geçtiğimiz ay ChatGPT için hazırlanan yeni nesil sesli iletişim altyapısında kullanılan asistan sesi, direkt olarak Scarlett Johansson’un 2013 yapımı “Her” filmindeki sesine benzetildi. Johansson o dikkat çeken filmde bir dijital asistanı seslendirmiş ve OpenAI’ın bu sesi kopyaladığı düşünülmüştü. Hatta bunun için çok sayıda karşılaştırma videosu ve özel haber paylaşılmıştı. Daha sonra buna bir açıklık getirmek isteyen OpenAI, “Sky” adının verildiği bu sesin Scarlett Johansson’un bir taklidi olmadığını belirtti ancak yine de sesi kullanmayı durdurma kararı aldı.
Şirket tarafından aktarıldığı kadarıyla ChatGPT için hazırlanan yeni nesil sesli iletişim altyapısında Breeze, Cove, Ember, Juniper ve Sky isimli beş farklı ses sunuluyor. Bu konuda, “Duyduğunuz beş farklı sesin her biri, profesyonel seslendirme sanatçıları, yetenek ajansları, oyuncu yönetmenleri ve sektör danışmanlarının katılımıyla beş ay süren kapsamlı bir süreç sonunda özenle seçildi” diyen şirket, beş farklı ses seçmek için tam 400 farklı başvuruyu değerlendirdiklerini aktardı.
Süreç hakkında, “Yapay zeka asistanlarının seslerinin ünlülerin sesini kasıtlı olarak taklit etmemesi gerektiğine inanıyoruz. Bu bağlamda Sky’ın sesi de Scarlett Johansson’ın bir taklidi değil, kendi doğal konuşma sesini kullanan farklı bir profesyonel oyuncuya ait. Gizliliklerini korumak için seslendirme sanatçılarımızın isimlerini paylaşamıyoruz.” diyen şirket, bu konuda uzunca bir süre gündemden düşmedi.
Çünkü sürece bizzat Scarlett Johansson dahil oldu ve ünlü oyuncu önemli açıklamalar yaptı. Johansson ilk olarak OpenAI’ı açık şekilde izin vermemesine rağmen ChatGPT’deki sesli asistanlarından birisi için sesini kopyalamakla suçladı. “Geçtiğimiz eylül ayında ChatGPT 4.0 sistemini seslendirmem için beni işe almak isteyen Sam Altman’dan bir teklif aldım” diyen Johansson, bu teklifi kişisel nedenlerden dolayı reddettiğini de söyledi.
Tüm bunların üstüne OpenAI’ın gerçekleştirdiği demoyu gördüğünde şok olduğunu, öfkelendiğini ve ses benzerliğine inanamadığını söyleyen Johansson, Sam Altman’ın GPT-4o’yu tanıtmasından iki gün önce temsilcisiyle temasa geçtiğini ve ses konusunu yeniden düşünmesini istediğini, ancak daha yanıt verme şansı bulamadan sistemi yine de benzer bir sesle piyasaya sürdüğünü söyledi.
Bu konuda bir açıklama daha yapan OpenAI ise, “Biz daha Johansson’a ulaşmadan önce Sky’ın sesi için bir seslendirme sanatçısı seçmiştik. Ancak Johansson’a duyduğumuz saygıdan dolayı Sky’ın sesini ürünlerimizde kullanmayı durdurduk. Daha iyi iletişim kuramadığımız için Johansson’dan özür dileriz.” demişti.