HyperAIHyperAI

Command Palette

Search for a command to run...

نظام مهمة DCASE 2021 المُحددة 6: التصنيف الصوتي التلقائي باستخدام التدريب المُسبق المُراقب بشكل ضعيف وطرق اختيار الكلمات

Zhen Yang Xiang Li Dong Liu Qichen Han∗ Weiqiang Yuan ∗

الملخص

يصف هذا التقرير الفني النظام المشارك في تحدي اكتشاف وتصنيف المشاهد والأحداث الصوتية (DCASE) 2021، المهمة 6: التوصيف التلقائي للصوت. نستخدم إطارًا نموذجيًا مبنيًا على الترميز والفك (Encoder-Decoder) لفهم الصوت وإنشاء التوصيفات. يركّز حلنا على معالجة مشكلتين رئيسيتين في التوصيف التلقائي للصوت: نقص البيانات وغموض اختيار الكلمات. نظرًا لقلة الأصوات المتوفرة التي تمت تسميتها بعناوين دقيقة (Golden Captions)، قمنا بجمع مجموعة بيانات واسعة النطاق مُسَمّاة بشكل ضعيف من الإنترنت باستخدام أساليب استدلالية. ثم قمنا بتدريب النموذج المُشفّر-المُفكّك مسبقًا على هذه المجموعة، تليها عملية التخصيص الدقيق (Fine-tuning) على مجموعة بيانات Clotho. ولحل مشكلة غموض اختيار الكلمات، استخدمنا كلمات مفتاحية مستخرجة من التوصيفات الخاصة بالأصوات المشابهة، بالإضافة إلى تسميات أحداث صوتية أُنتجت بواسطة نماذج مُدرّبة مسبقًا، لتوجيه عملية إنشاء الكلمات خلال مرحلة التفكيك. تم اختبار مشاركاتنا باستخدام مجموعة بيانات التدريب والاختبار التجريبي. وحققت أفضل مشاركة لدينا نتيجة بلغت 31.8 نقطة في مؤشر SPIDEr، مقابل 5.4 نقطة للنظام الأساسي (Baseline).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp