Command Palette
Search for a command to run...
PeriodWave: التوافق المتعدد الفترات للتدفق لتوليد موجات عالية الدقة
PeriodWave: التوافق المتعدد الفترات للتدفق لتوليد موجات عالية الدقة
Sang-Hoon Lee Ha-Yeong Choi Seong-Whan Lee
الملخص
في الآونة الأخيرة، تم استكشاف مهام إنشاء الموجات بشكل عام، مع التكيّف مع سيناريوهات مختلفة خارج التوزيع الطبيعي. وعلى الرغم من أن الأساليب القائمة على الشبكات التلافيفية التوليدية (GAN) أظهرت قوتها في توليد الموجات بسرعة، إلا أنها عرضة لحالات عدم التوافق بين التدريب والاستنتاج، مثل سيناريوهات التوليد ثنائي المرحلة من النص إلى الصوت. من ناحية أخرى، أظهرت النماذج القائمة على التشتت (diffusion-based models) أداءً توليدياً قوياً في مجالات أخرى؛ لكنها بقيت في الظل بسبب سرعتها البطيئة في الاستنتاج عند تطبيقها على مهام توليد الموجات. وبشكل عام، لا توجد هندسة مُولِّد (generator architecture) قادرة على فصل ميزات الدورية الطبيعية للموجات ذات الدقة العالية بشكل صريح. في هذه الورقة، نقترح نموذجًا جديدًا يُسمى PeriodWave، وهو نموذج موجات عالمي مبتكر. أولاً، نقدّم مُقدِّرًا مُتمكّنًا من الوعي بالدورة (period-aware flow matching estimator) الذي يمكنه اكتشاف ميزات الدورية في إشارة الموجة أثناء تقدير الحقول المتجهة. علاوةً على ذلك، نستخدم مُقدِّرًا متعدد الدورات (multi-period estimator) يتجنب التداخلات لالتقاط ميزات دورية مختلفة في إشارات الموجات. وعلى الرغم من أن زيادة عدد الدورات يمكن أن تُحسّن الأداء بشكل كبير، فإن ذلك يتطلب تكاليف حوسبة أعلى. وللتقليل من هذه المشكلة، نقترح أيضًا مُقدِّرًا عالميًا شرطيًا بفترة واحدة (single period-conditional universal estimator) يمكنه التغذية الأمامية بالتوازي عبر استنتاج دوري مُحَوَّل إلى دُفعات (period-wise batch inference). كما نستخدم التحويل الموجي المنفصل (discrete wavelet transform) لفصل معلومات التردد في إشارات الموجات دون فقدان، بهدف تحسين نمذجة الترددات العالية، ونُطبّق تقنية FreeU لتقليل الضوضاء ذات التردد العالي أثناء توليد الموجات. أظهرت النتائج التجريبية أن نموذجنا يتفوق على النماذج السابقة في كلا المهمتين: إعادة بناء مخطط ميل-спектروغرام (Mel-spectrogram) وتوليد الصوت من النص. وسيكون كل كود المصدر متاحًا على الرابط التالي: https://github.com/sh-lee-prml/PeriodWave.