ConsistencyTTA: تسريع التوليد النصي-الصوتي القائم على التشتت باستخدام التقطيع المتماسك

تلعب النماذج التفتيشية دورًا محوريًا في إنشاء الصوت من النص (TTA). لكنها تعاني من بطء التنبؤ الناتج عن عدد كبير جدًا من الاستعلامات الموجهة إلى الشبكة المزالة للضوضاء الأساسية في كل عملية إنشاء. لمعالجة هذا العائق، نقدّم إطار عمل يُسمى ConsistencyTTA، والذي يتطلب استعلامًا وحيدًا غير متسلسل للشبكة، مما يسرّع عملية TTA بمعدلات تصل إلى مئات المرات. نحقق ذلك من خلال اقتراح نموذج التوافق في الفضاء الخفي المُدرك للـ CFG، والذي يُحوّل عملية التوليد المتماسك إلى الفضاء الخفي، ويُدمج توجيه بدون تصنيف (CFG) في عملية التدريب. علاوةً على ذلك، على عكس النماذج التفتيشية، يمكن لـ ConsistencyTTA أن تُدرّب بشكل مغلق باستخدام مقاييس تُراعي النص في الفضاء الصوتي، مثل مقياس CLAP، لتحسين جودة الإنشاءات بشكل أكبر. تُظهر تقييماتنا الموضوعية والذاتية على مجموعة بيانات AudioCaps أن ConsistencyTTA تقلل من الحسابات المطلوبة أثناء التنبؤ بنسبة 400 مرة مقارنةً بالنماذج القائمة على التفتيش، مع الحفاظ على جودة وتنوع الإنشاءات.