Meta’dan ses ve müzik odaklı YZ modeli: AudioCraft

02 Ağustos 2023 17:04

Facebook, Instagram ve WhatsApp’ın başındaki firma Meta, ses ve müzik odaklı yapay zeka modeli AudioCraft ile gündemde.

Meta, bugün kullanıcıların tamamen üretken yapay zeka aracılığıyla, yazılı komutlar vererek müzik ve sesler oluşturmasına olanak tanıyan AudioCraft adlı yeni bir açık kaynaklı (Kodlar burada) yapay zeka modelini duyurdu. Şirket tarafından yapılan açıklamaya göre AudioCraft temelde üç farklı modelden oluşuyor, bunlar MusicGen, AudioGen ve EnCodec olarak duyuruluyor. Buradaki en tanıdık model daha önce detaylarını paylaştığımız MusicGen oluyor. MusicGen, hatırlamak adına yazılanları yani metin girdilerini müziğe dönüştürebiliyor. Girilen şarkıları analiz ederek üzerine metin girdilerine bakarak ekleme de yapabilen yapay zeka teknolojisi, “açık kaynak” temelinde hazırlanmış ve halen direkt olarak burada ücretsiz olarak denenebiliyor. Müzik oluşturma süreci halen biraz uzun süren ve ilk aşamada yüksek kalitede maksimum 12 saniye uzunluğa çıkabildiği belirtilen sistem, aktarıldığı kadarıyla tam 20 bin saatlik müzik kullanılarak eğitilmiş. Yani aklınıza gelebilecek her türde müziği üretebilen MusicGen sistemi, tek parça bir şarkı oluşturmaktan çok küçük müzik bölümleri üretme ve ilham verme konusunda çok faydalı görünüyor.

Oluşturulan müzik / ses parçalarının sistemlere indirilmesine izin veren sistem, genel girdiler yerine spesifik tanımlar kullanıldığı zaman daha iyi sonuçlar ortaya koyuyor. AudioCraft için bir açıklama yapan Meta CEO’su Mark Zuckerberg, “Ses sinyallerini ve metin tabanlı komutları dinleyerek yüksek kaliteli, gerçekçi ses ve müzik üreten AudioCraft’ın kodunu açık kaynak olarak sunuyoruz.” dedi. Bu konuda firmanın X üzerinde yaptığı örnek paylaşım ise şöyle oldu: 

Bu konuda çalışan başka isimler de bulunuyor. Bu konuda benzer bir sistemi en son MusicLM özelinde internet devi Google karşımıza çıkarmıştı. Yazılanları yani metinleri görsel haline getiren yapay zekâ sistemlerine benzeyen sistem, direkt olarak müzik üretimine odaklanıyor. Bu konuda bir ilke imza atmayan Google, kendi geliştirdiği MusicLM’in diğer örneklerden daha gelişmiş olduğunu belirtiyor. Aktarıldığı kadarıyla sistem 280 bin saatten fazla müzik ile eğitilmiş, bu sayede yazılanları istenilen hemen her türde bir tamamlanmış müzik haline getirebiliyor. Kompleks üretimler gerçekleştirebildiği aktarılan sistem, yapılan açıklamaya göre sadece türleri ve enstrümanları birleştirmekle kalmıyor, aynı zamanda normalde bilgisayarların kavraması zor olan soyut kavramları kullanarak parçalar da yazabiliyor. Mırıldanma, ıslık çalma veya bir resmin tarifine dayalı melodiler dahi oluşturabilen sistem, bir müzikte birden fazla türü harmanlayabiliyor ancak maalesef şu an herkes tarafından denenemiyor. Telif endişeleri (Eğitimde kullanılan 280 bin saatlik müzik arasında telif haklarıyla korunanlar var) nedeniyle Google’ın sistemi kendi içinde kullanmaya devam edeceği belirtiliyor, herkese açık bir kullanım için henüz bilgi verilmiyor.

Meta çalışması AudioCraft yanında bu da ilginizi çekebilir: Renault tarafından hazırlanan uçan araç çalışması

Paylaş