HyperAIHyperAI
منذ 15 أيام

تسريع توليد الموجات عالية الدقة من خلال تحسين التوافق التدفقي العدواني

Sang-Hoon Lee, Ha-Yeong Choi, Seong-Whan Lee
تسريع توليد الموجات عالية الدقة من خلال تحسين التوافق التدفقي العدواني
الملخص

يُقدّم هذا البحث نموذج PeriodWave-Turbo، وهو نموذج لإنشاء موجات صوتية عالية الدقة وعالية الكفاءة، باستخدام تحسين مطابقة التدفق المضاد (adversarial flow matching optimization). في الآونة الأخيرة، تم اعتماد نماذج التوليد القائمة على مطابقة التدفق الشرطي (Conditional Flow Matching, CFM) بنجاح في مهام إنشاء الموجات الصوتية، حيث تعتمد على هدف تقدير واحد لمجال المتجهات أثناء التدريب. وعلى الرغم من قدرة هذه النماذج على إنتاج إشارات صوتية عالية الدقة، إلا أنها تتطلب عدداً كبيراً من خطوات المعادلات التفاضلية العادية (ODE) مقارنة بنماذج GAN، التي تحتاج فقط إلى خطوة واحدة لإنشاء الصوت. بالإضافة إلى ذلك، غالبًا ما تفتقر العينات الناتجة إلى معلومات التردد العالي بسبب تقدير مجال المتجهات الضوضائي، مما لا يضمن إعادة إنتاج الترددات العالية بشكل دقيق. لمعالجة هذه القيود، قمنا بتحسين النماذج المُدرّبة مسبقًا القائمة على CFM من خلال دمج تعديل مُولّد خطوات ثابتة (fixed-step generator modification). واستخدمنا خسائر إعادة البناء والتحفيز المضاد (adversarial feedback) لتسريع عملية إنشاء الموجات الصوتية عالية الدقة. وبفضل تحسين مطابقة التدفق المضاد، يكفي فقط 1000 خطوة من التخصيص الدقيق (fine-tuning) لتحقيق أداءً يُعدّ من أفضل الأداء في مختلف المقاييس الموضوعية. علاوةً على ذلك، تم تخفيض زمن الاستدلال بشكل كبير من 16 خطوة إلى 2 أو 4 خطوات فقط. وبالإضافة إلى ذلك، وباستخدام التوسع في هيكل النموذج الأساسي لـ PeriodWave من 29 مليون إلى 70 مليون معلمة لتحسين القدرة على التعميم، حقق نموذج PeriodWave-Turbo أداءً غير مسبوق، مع تحقيق درجة تقييم إدراكي لجودة الصوت (PESQ) بلغت 4.454 على مجموعة بيانات LibriTTS. سيتم إتاحة العينات الصوتية، وشفرة المصدر، ونقطة التوقف (checkpoints) على الرابط التالي: https://github.com/sh-lee-prml/PeriodWave.

تسريع توليد الموجات عالية الدقة من خلال تحسين التوافق التدفقي العدواني | أحدث الأوراق البحثية | HyperAI