HyperAIHyperAI

Command Palette

Search for a command to run...

نظام جامعية شانغهاي للعلوم والتكنولوجيا في تحدّي DCASE2021 المهمة 6: وصف الصوت المستند إلى التدريب المسبق للمرسل وتعلم التدعيم

Kai Yu Mengyue Wu Zeyu Xie Xuenan Xu

الملخص

يُقدّم هذا التقرير نظامًا لوصف الصوت (Audio Captioning) مُستندًا إلى مهمة "كشف وتصنيف المشاهد والحوادث الصوتية" (DCASE) لعام 2021، المُنجزة ضمن المهمة السادسة. يتكون نظام وصف الصوت لدينا من معالج ترميزي (Encoder) مبني على شبكة عصبية متعددة الطبقات (CNN) مكوّنة من 10 طبقات، ومعالج فك ترميزي (Decoder) مبني على وحدة تكرارية مُدارة (GRU) ذات طبقة واحدة ومزودة بانتباه زمني. في هذا التحدي، لا توجد قيود على استخدام البيانات الخارجية أو النماذج المُدرّبة مسبقًا. ولتحسين نمذجة المفاهيم المُحتواة في المقطع الصوتي، قمنا بتدريب النموذج الأولي لمعالج الترميز (CNN) باستخدام مهمة التصنيف الصوتي (Audio Tagging) على مجموعة بيانات AudioSet. وبعد التدريب القياسي باستخدام التفاضل المتقاطع (Cross Entropy)، قمنا بتعديل النموذج بشكل دقيق (Fine-tuning) باستخدام التعلم المعزّز (Reinforcement Learning) بهدف تحسين القياس التقييمي مباشرةً. أظهرت التجارب أن النظام المقترح حقق قيمة SPIDEr تبلغ 28.6 على مجموعة التقييم العامة دون استخدام تقنيات التجميع (Ensemble).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
نظام جامعية شانغهاي للعلوم والتكنولوجيا في تحدّي DCASE2021 المهمة 6: وصف الصوت المستند إلى التدريب المسبق للمرسل وتعلم التدعيم | مستندات | HyperAI