HyperAIHyperAI

Command Palette

Search for a command to run...

ConsistencyTTA: تسريع التوليد النصي-الصوتي القائم على التشتت باستخدام التقطيع المتماسك

Yatong Bai Trung Dang Dung Tran Kazuhito Koishida Somayeh Sojoudi

الملخص

تلعب النماذج التفتيشية دورًا محوريًا في إنشاء الصوت من النص (TTA). لكنها تعاني من بطء التنبؤ الناتج عن عدد كبير جدًا من الاستعلامات الموجهة إلى الشبكة المزالة للضوضاء الأساسية في كل عملية إنشاء. لمعالجة هذا العائق، نقدّم إطار عمل يُسمى ConsistencyTTA، والذي يتطلب استعلامًا وحيدًا غير متسلسل للشبكة، مما يسرّع عملية TTA بمعدلات تصل إلى مئات المرات. نحقق ذلك من خلال اقتراح نموذج التوافق في الفضاء الخفي المُدرك للـ CFG، والذي يُحوّل عملية التوليد المتماسك إلى الفضاء الخفي، ويُدمج توجيه بدون تصنيف (CFG) في عملية التدريب. علاوةً على ذلك، على عكس النماذج التفتيشية، يمكن لـ ConsistencyTTA أن تُدرّب بشكل مغلق باستخدام مقاييس تُراعي النص في الفضاء الصوتي، مثل مقياس CLAP، لتحسين جودة الإنشاءات بشكل أكبر. تُظهر تقييماتنا الموضوعية والذاتية على مجموعة بيانات AudioCaps أن ConsistencyTTA تقلل من الحسابات المطلوبة أثناء التنبؤ بنسبة 400 مرة مقارنةً بالنماذج القائمة على التفتيش، مع الحفاظ على جودة وتنوع الإنشاءات.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp