FastDiff: نموذج تمايز شرطي سريع للتخليق الصوتي عالي الجودة

نجحت نماذج التمايز الاحتمالية التكرارية للإزالة (DDPMs) مؤخرًا في تحقيق أداءً متميزًا في العديد من المهام التوليدية. ومع ذلك، فإن عملية العينة التكرارية الموروثة تؤدي إلى تكاليف زمنية عالية، مما يعيق تطبيقاتها في توليد الصوت. تقدم هذه الورقة نموذج التمايز السريع الشرطي FastDiff، وهو نموذج تمايز سريع للصوت عالي الجودة. يستخدم FastDiff سلسلة من التحولات المكانية التي تأخذ بعين الاعتبار الزمن، ذات مجالات استقبال متنوعة، لتمثيل الترابطات الزمنية الطويلة بكفاءة مع شروط متكيفة. كما تم اعتماد مُقدّر لتخطيط الضوضاء لتقليل عدد خطوات العينة دون التضحية بجودة التوليد. بناءً على FastDiff، صممنا مُولّدًا من النص إلى الصوت (TTS) يعمل بشكل متكامل، يُسمى FastDiff-TTS، والذي يُولّد موجات صوتية عالية الوضوح دون الحاجة إلى أي ميزات وسيطة (مثل مخططات ميل-سبكتروغرام). أظهرت تقييمات FastDiff نتائج من الطراز الأول، مع عينات صوتية ذات جودة أعلى (متوسط التقييم الموضوعي MOS 4.28). كما أن FastDiff يُتيح سرعة عينة تصل إلى 58 مرة أسرع من الزمن الحقيقي على وحدة معالجة رسومية V100، مما يجعل نماذج التمايز قابلة للتطبيق عمليًا في تطبيقات توليد الصوت لأول مرة. ونُظهر أيضًا أن FastDiff تعمّمت بشكل جيد على إعادة توليد مخططات ميل-سبكتروغرام لمحادثين لم يسبق رؤيتهم، وأن FastDiff-TTS تفوقت على الطرق المنافسة في توليد الصوت من النص بشكل متكامل. يمكن الاستماع إلى عينات صوتية من المشروع عبر الرابط: \url{https://FastDiff.github.io/}.