HyperAIHyperAI
منذ 9 أيام

AudioLM: نهج نمذجة اللغة لإنشاء الصوت

Zalán Borsos, Raphaël Marinier, Damien Vincent, Eugene Kharitonov, Olivier Pietquin, Matt Sharifi, Dominik Roblek, Olivier Teboul, David Grangier, Marco Tagliasacchi, Neil Zeghidour
AudioLM: نهج نمذجة اللغة لإنشاء الصوت
الملخص

نُقدّم "AudioLM"، وهي إطار عمل لإنشاء صوتيات عالية الجودة مع الحفاظ على الاتساق على المدى الطويل. يُحول AudioLM الصوت المدخل إلى تسلسل من الرموز المنفصلة، ويُصوّر مهمة إنشاء الصوت كمهمة نمذجة لغوية في هذا الفضاء التمثيلي. نُظهر كيف توفر أدوات الترميز الصوتيات الحالية تنازلات مختلفة بين جودة إعادة البناء والهيكل على المدى الطويل، ونُقترح خطة ترميز هجينة لتحقيق الهدفين معًا. بمعنى آخر، نستفيد من التنشيطات المنفصلة لنموذج لغوي مُدرّب مسبقًا على الصوت (باستخدام الترميز المُخفي) لالتقاط الهيكل على المدى الطويل، والرموز المنفصلة الناتجة عن كودك صوتي عصبي لتحقيق توليد عالي الجودة. وبتدريبه على مجموعات ضخمة من موجات الصوت الخام، يتعلم AudioLM إنشاء استمرارات طبيعية ومتماسكة عند إعطائه مُدخلات قصيرة. عند تدريبه على الكلام، وبلا أي نص مكتوب أو تسميات، يُولّد AudioLM استمراراتًا للكلام ذات صيغة نحويّة ودلالية منطقية، مع الحفاظ على هوية المتكلم ونبرة الصوت حتى بالنسبة للمتحدثين غير المعروفين. علاوةً على ذلك، نُظهر كيف أن نهجنا يمتد إلى ما هو أبعد من الكلام من خلال إنشاء استمرارات موسيقية متماسكة على البيانو، رغم أن النموذج تم تدريبه دون أي تمثيل رمزي للموسيقى.

AudioLM: نهج نمذجة اللغة لإنشاء الصوت | أحدث الأوراق البحثية | HyperAI