AI sohbet botları ve sanat üreteçleri her geçen dakika daha fazla popülerlik kazanırken, sektördeki en önde gelen oyunculardan bazıları kendi araçlarıyla oyunda kalmaya çalışıyor. Meta az önce, şirketin mevcut tüm modellerden daha iyi performans gösterdiğini iddia ettiği kadar güçlü, metin kılavuzlu, yapay olarak akıllı bir konuşma üreteci olan Voicebox’ı tanıttı.
Voicebox, ChatGPT’nin metin oluşturabilmesi ve Bing veya Dall-E 2’nin görüntü oluşturabilmesi kadar kolay bir şekilde ses oluşturacak kadar güçlüdür. Sistem henüz genel kullanıma açık olmasa da Meta, Voicebox hakkında daha fazla bilgi edinmek isteyen herkes için demoları erişilebilir hale getirdi.
Ayrıca: Bir sonraki iş görüşmeniz bir kişi yerine yapay zeka ile olabilir
Sistem, örneğin ses üretimi doğal ses klipleri sağladığından, içerik oluşturucular ve editörler tarafından ses düzenlemede kullanılabilir. Ancak köpek havlaması gibi ses kliplerindeki gürültüyü akıllıca düzenleyecek ve tek bir ritmi bile kaçırmadan sesi yeniden oluşturacak kadar çok yönlüdür.
Voicebox’ın sunduğu yeteneklerden biri, bir örneğin ses stiliyle eşleşebilmesi ve metinden konuşmaya klipler oluşturabilmesidir. Esasen, görme engelli kullanıcılar Voicebox’a bir arkadaşının ses klibini iki saniye gibi kısa bir sürede verebilir ve AI kullanarak o arkadaşının yazılı mesajlarını sesinden okuyabilir.
Yeni üretken AI aracı, bağlam içi öğrenme yoluyla görevleri çözebilir, böylece daha önce hiç verilmeyen metni işleyebilir ve tıpkı bir kişinin yeni zorlukları öğrenmek ve üstesinden gelmek için mevcut bilgileri kullanarak okuyacağı gibi doğru bir şekilde bağlam ve çekimler oluşturabilir.
Ayrıca: OpenAI CEO’suna göre üretken yapay zeka geliştikçe daha kapsayıcı olmalı
Bu çığır açan aracın etik ve yasal sonuçları kolayca reddedilemez. Herkes, bir kişinin ses kayıtlarını kullanarak izinsiz olarak ses klipleri oluşturabilir ve onlardan istediklerini söylemelerini talep edebilir.
Yayınlanan makalede Meta, bir ikili sınıflandırma modelinin gerçek dünyadaki konuşma ile Voicebox’ın oluşturduğu konuşma arasında ayrım yapabileceğini iddia ediyor. Her iki durumda da, sistem halka açık olmadığı için Meta’nın mecazi ayakları henüz ateşe basmış değil.
Ayrıca: Meta’nın AI baş bilim adamı, LLM’lerin köpekler kadar akıllı olmadığını söylüyor
Optimum performans için altı dilde 60.000 saatlik İngilizce sesli kitap ve 50.000 saatlik çok dilli sesli kitap üzerinde meta eğitimli Voicebox. Eğitimi, eğitim, konuşma gürültüsünü giderme, stil verme, düzenleme ve çeşitli konuşma örnekleri oluşturma olmaksızın çok dilli metinden konuşmaya gerçekleştirmesini sağlar.
Meta AI tarafından yayınlanan bir makalede şirket, Microsoft’un VALL-E’sinden 20 kat daha hızlı ve daha anlaşılır çeşitli ses örnekleri üretebileceğini iddia ediyor.
Ayrıca: Google bile çalışanlarını AI chatbot kullanımı konusunda uyarıyor
Meta, rakiplerinden daha hızlı olmasının ve daha az hata yapmasının yanı sıra, Voicebox’ın her dil için ayrı ayrı özel olarak eğitilmeden yazılı metni bir veya daha fazla dilde sözlü kelimelere dönüştürebileceğini iddia ediyor.
Bir önceki son teknoloji ürünü YourTTS ile karşılaştırıldığında, Voicebox’ın ortalama kelime hata oranını %10,9’dan %5,2’ye düşürdüğü ve ses benzerliğini 0,335’ten 0,481’e çıkardığı tespit edildi.