HyperAIHyperAI

Command Palette

Search for a command to run...

تسريع توليد الموجات عالية الدقة من خلال تحسين التوافق التدفقي العدواني

Sang-Hoon Lee Ha-Yeong Choi Seong-Whan Lee

الملخص

يُقدّم هذا البحث نموذج PeriodWave-Turbo، وهو نموذج لإنشاء موجات صوتية عالية الدقة وعالية الكفاءة، باستخدام تحسين مطابقة التدفق المضاد (adversarial flow matching optimization). في الآونة الأخيرة، تم اعتماد نماذج التوليد القائمة على مطابقة التدفق الشرطي (Conditional Flow Matching, CFM) بنجاح في مهام إنشاء الموجات الصوتية، حيث تعتمد على هدف تقدير واحد لمجال المتجهات أثناء التدريب. وعلى الرغم من قدرة هذه النماذج على إنتاج إشارات صوتية عالية الدقة، إلا أنها تتطلب عدداً كبيراً من خطوات المعادلات التفاضلية العادية (ODE) مقارنة بنماذج GAN، التي تحتاج فقط إلى خطوة واحدة لإنشاء الصوت. بالإضافة إلى ذلك، غالبًا ما تفتقر العينات الناتجة إلى معلومات التردد العالي بسبب تقدير مجال المتجهات الضوضائي، مما لا يضمن إعادة إنتاج الترددات العالية بشكل دقيق. لمعالجة هذه القيود، قمنا بتحسين النماذج المُدرّبة مسبقًا القائمة على CFM من خلال دمج تعديل مُولّد خطوات ثابتة (fixed-step generator modification). واستخدمنا خسائر إعادة البناء والتحفيز المضاد (adversarial feedback) لتسريع عملية إنشاء الموجات الصوتية عالية الدقة. وبفضل تحسين مطابقة التدفق المضاد، يكفي فقط 1000 خطوة من التخصيص الدقيق (fine-tuning) لتحقيق أداءً يُعدّ من أفضل الأداء في مختلف المقاييس الموضوعية. علاوةً على ذلك، تم تخفيض زمن الاستدلال بشكل كبير من 16 خطوة إلى 2 أو 4 خطوات فقط. وبالإضافة إلى ذلك، وباستخدام التوسع في هيكل النموذج الأساسي لـ PeriodWave من 29 مليون إلى 70 مليون معلمة لتحسين القدرة على التعميم، حقق نموذج PeriodWave-Turbo أداءً غير مسبوق، مع تحقيق درجة تقييم إدراكي لجودة الصوت (PESQ) بلغت 4.454 على مجموعة بيانات LibriTTS. سيتم إتاحة العينات الصوتية، وشفرة المصدر، ونقطة التوقف (checkpoints) على الرابط التالي: https://github.com/sh-lee-prml/PeriodWave.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
تسريع توليد الموجات عالية الدقة من خلال تحسين التوافق التدفقي العدواني | مستندات | HyperAI