Make-An-Audio: التوليد الصوتي من النص باستخدام نماذج التمايز المعززة بالمضمون

أحدث النمذجة التوليدية متعددة الوسائط على نطاق واسع إنجازات كبيرة في توليد الصور من النصوص وفي توليد الفيديو من النصوص. لكن تطبيقها على الصوت ما زال متأخراً بسبب سببين رئيسيين: نقص البيانات الكبيرة ذات الجودة العالية التي تحتوي على أزواج نصوص-صوت، وتعقيد نمذجة بيانات الصوت المستمرة الطويلة. في هذا العمل، نقترح "Make-An-Audio" باستخدام نموذج توزيع مُعزز بالمُدخلات (prompt-enhanced diffusion model) يعالج هذين الفجوات من خلال: 1) تقديم تحسين اصطناعي للمُدخلات باستخدام منهجية "الاستخلاص ثم إعادة البرمجة" (distill-then-reprogram)، مما يخفف من نقص البيانات عبر إنشاء تراكيب مفاهيم بترتيبات تفوق بكثير عدد مرات التكرار، باستخدام صوتيات خالية من اللغة؛ 2) الاستفادة من مُشفّر الطيفية (spectrogram autoencoder) لتوقع تمثيلات صوتية ذاتية التدريب (self-supervised) بدلًا من موجات الصوت. وباستخدام تمثيلات التدريب المسبق المتميزة للغة والصوت (CLAP) المتميزة بالمتانة، يحقق "Make-An-Audio" نتائج رائدة على مستوى الحد الأقصى في التقييمات الموضوعية والذاتية. علاوةً على ذلك، نعرض قدرته على التحكم والتعميم في المهام من نوع "X إلى صوت" (X-to-Audio) ضمن مبدأ "لا تُترك وسائط خلفًا" (No Modality Left Behind)، لأول مرة يُفتح بذلك القدرة على توليد صوتيات عالية الدقة وعالية الولاء بناءً على إدخال وسائط محددة من المستخدم. يمكن الاستماع إلى عينات صوتية من المشروع عبر الرابط: https://Text-to-Audio.github.io