الملخص

نُقدّم "AudioLM"، وهي إطار عمل لإنشاء صوتيات عالية الجودة مع الحفاظ على الاتساق على المدى الطويل. يُحول AudioLM الصوت المدخل إلى تسلسل من الرموز المنفصلة، ويُصوّر مهمة إنشاء الصوت كمهمة نمذجة لغوية في هذا الفضاء التمثيلي. نُظهر كيف توفر أدوات الترميز الصوتيات الحالية تنازلات مختلفة بين جودة إعادة البناء والهيكل على المدى الطويل، ونُقترح خطة ترميز هجينة لتحقيق الهدفين معًا. بمعنى آخر، نستفيد من التنشيطات المنفصلة لنموذج لغوي مُدرّب مسبقًا على الصوت (باستخدام الترميز المُخفي) لالتقاط الهيكل على المدى الطويل، والرموز المنفصلة الناتجة عن كودك صوتي عصبي لتحقيق توليد عالي الجودة. وبتدريبه على مجموعات ضخمة من موجات الصوت الخام، يتعلم AudioLM إنشاء استمرارات طبيعية ومتماسكة عند إعطائه مُدخلات قصيرة. عند تدريبه على الكلام، وبلا أي نص مكتوب أو تسميات، يُولّد AudioLM استمراراتًا للكلام ذات صيغة نحويّة ودلالية منطقية، مع الحفاظ على هوية المتكلم ونبرة الصوت حتى بالنسبة للمتحدثين غير المعروفين. علاوةً على ذلك، نُظهر كيف أن نهجنا يمتد إلى ما هو أبعد من الكلام من خلال إنشاء استمرارات موسيقية متماسكة على البيانو، رغم أن النموذج تم تدريبه دون أي تمثيل رمزي للموسيقى.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

AudioLM: نهج نمذجة اللغة لإنشاء الصوت

Zalán Borsos Raphaël Marinier Damien Vincent Eugene Kharitonov Olivier Pietquin Matt Sharifi Dominik Roblek Olivier Teboul David Grangier Marco Tagliasacchi1 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

AudioLM: نهج نمذجة اللغة لإنشاء الصوت

Zalán Borsos Raphaël Marinier Damien Vincent Eugene Kharitonov Olivier Pietquin Matt Sharifi Dominik Roblek Olivier Teboul David Grangier Marco Tagliasacchi1 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

AudioLM: نهج نمذجة اللغة لإنشاء الصوت

Zalán Borsos Raphaël Marinier Damien Vincent Eugene Kharitonov Olivier Pietquin Matt Sharifi Dominik Roblek Olivier Teboul David Grangier Marco Tagliasacchi1 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Zalán Borsos Raphaël Marinier Damien Vincent Eugene Kharitonov Olivier Pietquin Matt Sharifi Dominik Roblek Olivier Teboul David Grangier Marco Tagliasacchi

Zalán Borsos Raphaël Marinier Damien Vincent Eugene Kharitonov Olivier Pietquin Matt Sharifi Dominik Roblek Olivier Teboul David Grangier Marco Tagliasacchi

Zalán Borsos Raphaël Marinier Damien Vincent Eugene Kharitonov Olivier Pietquin Matt Sharifi Dominik Roblek Olivier Teboul David Grangier Marco Tagliasacchi