منذ 18 أيام
AudioCaps: إنشاء عناوين وصفية للصوتيات في البيئة الطبيعية
{Chris Dongjoo Kim, Byeongchang Kim, Hyunmin Lee, Gunhee Kim}

الملخص
نستكشف مشكلة وصف الصوت (Audio Captioning): أي إنتاج وصف بلغة طبيعية لأي نوع من الصوت في البيئة الواقعية، وهي مشكلة لم تُدرَس بشكل كافٍ في الأبحاث السابقة. نقدّم مجموعة بيانات ضخمة تضم 46 ألف مقاطع صوتية مصحوبة بزوج من النصوص المكتوبة يدوياً، تم جمعها عبر منصات التوظيف الجماعي (crowdsourcing) على مجموعة بيانات AudioSet. تُظهر دراساتنا التجريبية المفصلة أن النصوص التي جمعناها تتماشى فعلاً مع المدخلات الصوتية، كما تكشف عن الأشكال الفعّالة من تمثيل الصوت ونماذج الوصف التي تُحقق أداءً جيداً في وصف الصوت. ومن خلال تجارب واسعة، نقترح كذلك مكوّنين جديدين يسهمان في تحسين أداء وصف الصوت: معالج متعدد المقاييس من الأعلى إلى الأسفل (top-down multi-scale encoder) والانتباه الدلالي المتماثل (aligned semantic attention).