نظام جامعية شانغهاي للعلوم والتكنولوجيا في تحدّي DCASE2021 المهمة 6: وصف الصوت المستند إلى التدريب المسبق للمرسل وتعلم التدعيم

يُقدّم هذا التقرير نظامًا لوصف الصوت (Audio Captioning) مُستندًا إلى مهمة "كشف وتصنيف المشاهد والحوادث الصوتية" (DCASE) لعام 2021، المُنجزة ضمن المهمة السادسة. يتكون نظام وصف الصوت لدينا من معالج ترميزي (Encoder) مبني على شبكة عصبية متعددة الطبقات (CNN) مكوّنة من 10 طبقات، ومعالج فك ترميزي (Decoder) مبني على وحدة تكرارية مُدارة (GRU) ذات طبقة واحدة ومزودة بانتباه زمني. في هذا التحدي، لا توجد قيود على استخدام البيانات الخارجية أو النماذج المُدرّبة مسبقًا. ولتحسين نمذجة المفاهيم المُحتواة في المقطع الصوتي، قمنا بتدريب النموذج الأولي لمعالج الترميز (CNN) باستخدام مهمة التصنيف الصوتي (Audio Tagging) على مجموعة بيانات AudioSet. وبعد التدريب القياسي باستخدام التفاضل المتقاطع (Cross Entropy)، قمنا بتعديل النموذج بشكل دقيق (Fine-tuning) باستخدام التعلم المعزّز (Reinforcement Learning) بهدف تحسين القياس التقييمي مباشرةً. أظهرت التجارب أن النظام المقترح حقق قيمة SPIDEr تبلغ 28.6 على مجموعة التقييم العامة دون استخدام تقنيات التجميع (Ensemble).