تصنيع-صوت 2: توليد نص إلى صوت معزز زمنيًا

حققت نماذج التوسع الكبيرة نجاحًا في مهام تحويل النص إلى الصوت (T2A)، لكنها غالبًا ما تعاني من مشاكل شائعة مثل عدم التوافق الدلالي وانعدام التجانس الزمني بسبب الفهم المحدود للغة الطبيعية وندرة البيانات. بالإضافة إلى ذلك، تؤدي الهياكل المكانية ثنائية الأبعاد التي تُستخدم على نطاق واسع في أعمال T2A إلى جودة صوت غير راضية عند إنشاء عينات صوت متغيرة الطول لأنها لا تركز بشكل كافٍ على المعلومات الزمنية. لمعالجة هذه التحديات، نقترح "Make-an-Audio 2"، وهو طريقة مستندة إلى التوسع الكامن لتحويل النص إلى الصوت (T2A) تستند إلى نجاح "Make-an-Audio". يتضمن نهجنا عدة تقنيات لتحسين التوافق الدلالي والتجانس الزمني: أولاً، نستخدم نماذج اللغة الكبيرة المدربة مسبقًا (LLMs) لتفسير النص إلى أزواج <حدث & ترتيب> مهيأة لتحقيق التقاط أفضل للمعلومات الزمنية. كما نقدم محول نص مهيأ آخر لمساعدة في تعلم التوافق الدلالي أثناء عملية تنقية الانتشار. لتحسين أداء إنشاء العينات الصوتية المتغيرة الطول وتعزيز استخراج المعلومات الزمنية، قمنا بتصميم تنقيّة انتشار مستندة إلى محول feed-forward Transformer. وأخيرًا، نستخدم LLMs لتوسيع وتغيير كمية كبيرة من بيانات الصوت-العلامة إلى مجموعات بيانات الصوت-النص لتخفيف مشكلة ندرة البيانات الزمنية. تظهر التجارب الواسعة أن طرقتنا تتفوق على النماذج الأساسية في كل من المقاييس الموضوعية والذاتية، وتحقق مكاسب كبيرة في فهم المعلومات الزمنية، والتوافق الدلالي، وجودة الصوت.