RFWave: تدفق مستقيمات متعدد النطاقات لإعادة بناء موجات الصوت

أحرزت التطورات الحديثة في النمذجة التوليدية تقدماً كبيراً في إعادة بناء موجات الصوت من تمثيلات متنوعة. وعلى الرغم من كفاءة نماذج التباعد في هذه المهمة، إلا أنها تعاني من مشكلات في التأخير الزمني نظراً لعملها على مستوى النقاط العينة الفردية واحتياجها إلى عدد كبير من خطوات العينة. في هذه الدراسة، نقدّم RFWave، وهي منهجية متعددة النطاقات مبتكرة تعتمد على تدفق التصحيح (Rectified Flow)، مصممة لإعادة بناء موجات صوتية عالية الجودة من مخططات ميل-سبكتروغرام أو من رموز صوتية منفصلة. يتميّز RFWave بإنتاجه لمخططات سبكتروغرام معقدة، ويعمل على مستوى الإطارات، مع معالجة جميع النطاقات الفرعية في آن واحد، مما يعزز الكفاءة. وباستخدام تدفق التصحيح، الذي يستهدف مساراً نقلًا مستقيماً، يتمكن RFWave من تحقيق إعادة بناء باستخدام فقط 10 خطوات عينة. تُظهر تقييماتنا التجريبية أن RFWave لا يوفر جودة إعادة بناء متميزة فحسب، بل يُقدّم كفاءة حسابية متقدمة جداً، مما يسمح بإنتاج الصوت بسرعة تصل إلى 160 مرة أسرع من الوقت الحقيقي على وحدة معالجة الرسوميات (GPU). يمكن الاطلاع على عرض تجريبي مباشر عبر الرابط التالي: https://rfwave-demo.github.io/rfwave/.