نظام مهمة DCASE 2021 المُحددة 6: التصنيف الصوتي التلقائي باستخدام التدريب المُسبق المُراقب بشكل ضعيف وطرق اختيار الكلمات

يصف هذا التقرير الفني النظام المشارك في تحدي اكتشاف وتصنيف المشاهد والأحداث الصوتية (DCASE) 2021، المهمة 6: التوصيف التلقائي للصوت. نستخدم إطارًا نموذجيًا مبنيًا على الترميز والفك (Encoder-Decoder) لفهم الصوت وإنشاء التوصيفات. يركّز حلنا على معالجة مشكلتين رئيسيتين في التوصيف التلقائي للصوت: نقص البيانات وغموض اختيار الكلمات. نظرًا لقلة الأصوات المتوفرة التي تمت تسميتها بعناوين دقيقة (Golden Captions)، قمنا بجمع مجموعة بيانات واسعة النطاق مُسَمّاة بشكل ضعيف من الإنترنت باستخدام أساليب استدلالية. ثم قمنا بتدريب النموذج المُشفّر-المُفكّك مسبقًا على هذه المجموعة، تليها عملية التخصيص الدقيق (Fine-tuning) على مجموعة بيانات Clotho. ولحل مشكلة غموض اختيار الكلمات، استخدمنا كلمات مفتاحية مستخرجة من التوصيفات الخاصة بالأصوات المشابهة، بالإضافة إلى تسميات أحداث صوتية أُنتجت بواسطة نماذج مُدرّبة مسبقًا، لتوجيه عملية إنشاء الكلمات خلال مرحلة التفكيك. تم اختبار مشاركاتنا باستخدام مجموعة بيانات التدريب والاختبار التجريبي. وحققت أفضل مشاركة لدينا نتيجة بلغت 31.8 نقطة في مؤشر SPIDEr، مقابل 5.4 نقطة للنظام الأساسي (Baseline).