AudioGen: توليد صوتي موجه بالنص

نعالج مشكلة إنشاء عينات صوتية مشروطة بعناوين نصية وصفية. في هذا العمل، نقترح نموذجًا توليدياً ذاتيًا يُسمى AudioGen، والذي يُولّد عينات صوتية مشروطة ببيانات نصية مدخلة. يعمل AudioGen على تمثيل صوتي منفصل تم تعلّمه مسبقًا. ويتسم مهمة التوليد من النص إلى الصوت بتحديات متعددة. نظرًا للطريقة التي تنتقل بها الإشارات الصوتية عبر الوسط، فإن تمييز "الكائنات" يمكن أن يكون مهمة صعبة (مثلاً، فصل أصوات أكثر من شخص يتحدثان في آن واحد). ويُعقد هذا الأمر أكثر بسبب ظروف التسجيل الواقعية (مثل الضوضاء الخلفية، والانعكاس الصوتي، وغيرها). كما أن ندرة التسميات النصية تفرض قيدًا آخر، مما يحد من قدرة النماذج على التوسع. وأخيرًا، يتطلب نمذجة الصوت عالي الجودة ترميز الصوت بتردد عينة عالي، ما يؤدي إلى تسلسلات طويلة جدًا. ولتخفيف التحديات المذكورة أعلاه، نقترح تقنية تعزيز تُمزج فيها عينات صوتية مختلفة، مما يُجبر النموذج على تعلّم فصل المصادر المتعددة داخليًا. وقد قمنا بجمع 10 مجموعات بيانات تحتوي على أنواع مختلفة من الصوت والتسميات النصية، بهدف التغلب على ندرة نقاط البيانات الصوتية-النصية. ولتحسين سرعة الاستدلال، استكشفنا استخدام النمذجة متعددة التدفقات، ما يسمح باستخدام تسلسلات أقصر مع الحفاظ على معدل بيت مشابه ونوعية إدراكية مماثلة. كما طبّقنا تقنية التوجيه بدون فئة (classifier-free guidance) لتحسين الالتزام بالنص المدخل. وعند المقارنة مع النماذج الأساسية التي تم تقييمها، أظهر AudioGen تفوقًا على كل من المقاييس الموضوعية والذاتية. وأخيرًا، استكشفنا قدرة الطريقة المقترحة على توليد استمرارية صوتية بشكل مشروط وغير مشروط. عينات تجريبية: https://felixkreuk.github.io/audiogen