SLAM-AAC: تحسين الوصف الصوتي من خلال التكثيف المُعاد صياغته وتحسين CLAP من خلال نماذج LLM

يهدف التوصيف الصوتي التلقائي (AAC) إلى إنتاج وصفات نصية طبيعية للإشارات الصوتية المدخلة. وقد ساهم التقدم الأخير في نماذج التدريب المسبق الصوتي ونماذج اللغة الكبيرة (LLMs) في تحسين قدرات فهم الصوت والاستنتاج النصي بشكل كبير، مما مكّن من تطوير التوصيف الصوتي التلقائي. في هذه الورقة، نقترح نموذج SLAM-AAC الذي يعزز التوصيف الصوتي التلقائي من خلال تعزيز التوليد المُعاد صياغته (paraphrasing augmentation) وتحسين النموذج باستخدام CLAP-Refine، وذلك عبر استخدام نماذج اللغة الكبيرة. تعتمد طريقةنا على نموذج EAT ذاتي التدريب لاستخراج تمثيلات صوتية دقيقة، والتي تُتم محاذاةً مع تمثيلات نصية باستخدام طبقات خطية خفيفة. ويتم تحسين نموذج لغة كبير لإنشاء التوصيفات بفعالية باستخدام مُثبت LoRA. مستلهمين من طريقة الترجمة العكسية (back-translation) المستخدمة في الترجمة الآلية، نُطبّق تقنية تعزيز إعادة الصياغة لتوسيع مجموعة بيانات Clotho أثناء التدريب المسبق. تساعد هذه الاستراتيجية في التغلب على قيد ندرة أزواج الصوت-النص، وتجعل من الممكن إنتاج وصفات أكثر تنوعًا من مجموعة صغيرة من المقاطع الصوتية. أثناء الاستدلال، نقدّم استراتيجية CLAP-Refine قابلة للتركيب (plug-and-play) للاستفادة الكاملة من النواتج المتعددة للتحليل النصي، مشابهة لاستراتيجية إعادة تقييم النتائج الناتجة عن أفضل n نتائج (n-best rescoring) في معالجة الكلام. وباستخدام نموذج CLAP لحساب التشابه بين الصوت والنص، نتمكن من اختيار الوصف النصي الذي يتطابق بشكل أفضل مع الإدخال الصوتي من بين النتائج الناتجة عن عدة أشعة بحث. تُظهر النتائج التجريبية أن نموذج SLAM-AAC يحقق أداءً متميزًا على مجموعة بيانات Clotho V2 وAudioCaps، ويتفوق على النماذج الرئيسية السابقة.