HyperAIHyperAI

Command Palette

Search for a command to run...

AudioLM: نهج نمذجة اللغة لإنشاء الصوت

الملخص

نُقدّم "AudioLM"، وهي إطار عمل لإنشاء صوتيات عالية الجودة مع الحفاظ على الاتساق على المدى الطويل. يُحول AudioLM الصوت المدخل إلى تسلسل من الرموز المنفصلة، ويُصوّر مهمة إنشاء الصوت كمهمة نمذجة لغوية في هذا الفضاء التمثيلي. نُظهر كيف توفر أدوات الترميز الصوتيات الحالية تنازلات مختلفة بين جودة إعادة البناء والهيكل على المدى الطويل، ونُقترح خطة ترميز هجينة لتحقيق الهدفين معًا. بمعنى آخر، نستفيد من التنشيطات المنفصلة لنموذج لغوي مُدرّب مسبقًا على الصوت (باستخدام الترميز المُخفي) لالتقاط الهيكل على المدى الطويل، والرموز المنفصلة الناتجة عن كودك صوتي عصبي لتحقيق توليد عالي الجودة. وبتدريبه على مجموعات ضخمة من موجات الصوت الخام، يتعلم AudioLM إنشاء استمرارات طبيعية ومتماسكة عند إعطائه مُدخلات قصيرة. عند تدريبه على الكلام، وبلا أي نص مكتوب أو تسميات، يُولّد AudioLM استمراراتًا للكلام ذات صيغة نحويّة ودلالية منطقية، مع الحفاظ على هوية المتكلم ونبرة الصوت حتى بالنسبة للمتحدثين غير المعروفين. علاوةً على ذلك، نُظهر كيف أن نهجنا يمتد إلى ما هو أبعد من الكلام من خلال إنشاء استمرارات موسيقية متماسكة على البيانو، رغم أن النموذج تم تدريبه دون أي تمثيل رمزي للموسيقى.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp