الملخص

الصوت جزء أساسي من حياتنا اليومية، لكن إنشاءه غالبًا ما يتطلب خبرة متخصصة ويستغرق وقتًا طويلاً. خلال العام الماضي، حققت مجتمعات البحث تقدماً كبيراً في تحسين أداء النماذج الكبيرة لتوليد الصوت ذات الوسيلة الواحدة (الكلام، الأصوات، أو الموسيقى)، وذلك من خلال اعتماد نماذج توليدية أكثر قوة وتوسيع نطاق البيانات. ومع ذلك، تفتقر هذه النماذج إلى التحكم الفعّال في عدة جوانب: فنماذج توليد الكلام لا تستطيع إنتاج أنماط جديدة بناءً على وصف نصي، كما أنها محدودة في تغطية المجالات، مثل البيئات الخارجية؛ أما نماذج توليد الأصوات، فتُقدّم فقط تحكماً خشناً بناءً على وصف مثل "شخص يتحدث"، وتُنتج فقط أصواتاً بشرية مشوشة. في هذا البحث، نقدّم "أوديوبوكس" (Audiobox)، نموذجًا موحدًا مبنيًا على مطابقة التدفق (flow-matching)، قادر على توليد أنواع متعددة من الصوت. وقد صممنا وسائط توجيه قائمة على الوصف (description-based prompting) ووسائط قائمة على الأمثلة (example-based prompting) لتعزيز التحكم وتوحيد نماذج توليد الكلام والأصوات. ونسمح بتحكم منفصل في النص المكتوب (transcript)، والصوت الصوتي (vocal)، وأنماط صوتية أخرى عند توليد الكلام. ولتحسين قدرة النموذج على التعميم مع قلة العلامات، نُطبّق هدفًا تلقائيًا للإكمال (self-supervised infilling) في التدريب المسبق على كميات كبيرة من الصوت غير المُعلّم. يُسجّل أوديوبوكس أرقامًا قياسية جديدة في توليد الكلام والأصوات (0.745 تشابهًا على Librispeech في توليد الكلام بدون تدريب مسبق؛ و0.77 FAD على AudioCaps في توليد الصوت بناءً على النص)، كما يفتح آفاقًا جديدة لتوليد صوت بأسلوب صوتي وصوتيات جديدة. كما ندمج حلولًا مخصصة (Bespoke Solvers)، التي تُسرّع عملية التوليد بأكثر من 25 مرة مقارنة بالحلّ العادي للمعادلات التفاضلية العادية (ODE solver) المستخدم في مطابقة التدفق، دون التأثير على الأداء في عدة مهام. يمكن زيارة العرض التوضيحي للنموذج عبر الرابط: https://audiobox.metademolab.com/

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

أوديو박س: توليد صوتي موحد باستخدام أوامر نصية طبيعية

Apoorv Vyas Bowen Shi Matthew Le Andros Tjandra Yi-Chiao Wu Baishan Guo Jiemin Zhang Xinyue Zhang Robert Adkins William Ngan14 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

أوديو박س: توليد صوتي موحد باستخدام أوامر نصية طبيعية

Apoorv Vyas Bowen Shi Matthew Le Andros Tjandra Yi-Chiao Wu Baishan Guo Jiemin Zhang Xinyue Zhang Robert Adkins William Ngan14 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

أوديو박س: توليد صوتي موحد باستخدام أوامر نصية طبيعية

Apoorv Vyas Bowen Shi Matthew Le Andros Tjandra Yi-Chiao Wu Baishan Guo Jiemin Zhang Xinyue Zhang Robert Adkins William Ngan14 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Apoorv Vyas Bowen Shi Matthew Le Andros Tjandra Yi-Chiao Wu Baishan Guo Jiemin Zhang Xinyue Zhang Robert Adkins William Ngan

Apoorv Vyas Bowen Shi Matthew Le Andros Tjandra Yi-Chiao Wu Baishan Guo Jiemin Zhang Xinyue Zhang Robert Adkins William Ngan

Apoorv Vyas Bowen Shi Matthew Le Andros Tjandra Yi-Chiao Wu Baishan Guo Jiemin Zhang Xinyue Zhang Robert Adkins William Ngan