HyperAIHyperAI
منذ 17 أيام

إطار عمل متعدد المهام مُشغّل بالصوت باستخدام التعلّم ذاتي التحفيز

Shehzeen Hussain, Van Nguyen, Shuhua Zhang, Erik Visser
إطار عمل متعدد المهام مُشغّل بالصوت باستخدام التعلّم ذاتي التحفيز
الملخص

أظهرت أساليب التعلم الذاتي مثل wav2vec 2.0 نتائج واعدة في تعلّم تمثيلات الكلام من بيانات كلام غير مُسَمّاة وغير مُدوّنة، والتي تُعد مفيدة لتقنيات التعرف على الكلام. وبما أن هذه التمثيلات تُتعلم دون أي إشراف مخصص للمهمة، فإنها يمكن أن تكون مفيدة أيضًا لمهام أخرى مُشغّلة بالصوت مثل التحقق من الهوية الصوتية، وتحديد الكلمات المفتاحية، وتصنيف المشاعر، إلخ. في عملنا، نقترح إطارًا عامًا لتعديل نموذج wav2vec 2.0 المُدرّب مسبقًا لاستخدامه في مهام صوتية متنوعة. ونقوم بتطوير هياكل شبكات تابعة تعمل على التمثيلات السياقية للكلام التي يُنتجها wav2vec 2.0، بهدف تكييف هذه التمثيلات لحل مهمة معينة. وأخيرًا، نوسع إطارنا لتنفيذ التعلّم متعدد المهام من خلال تحسين معلمات الشبكة بشكل مشترك على عدة مهام مُشغّلة بالصوت باستخدام هيكل أساسي مُشترك من نوع Transformer. وتحقق كل من أطرنا الفردية والمتعددة المهام نتائج متميزة على معايير التحقق من الهوية الصوتية وتحديد الكلمات المفتاحية. وتُظهر أفضل النماذج التي نقترحها معدل خطأ خاطئ (EER) بلغ 1.98% و3.15% على مجموعة بيانات VoxCeleb1 عند التدريب على VoxCeleb2 وVoxCeleb1 على التوالي، كما تُحقق دقة بلغت 98.23% على مجموعة بيانات Google Speech Commands v1.0 لتحديد الكلمات المفتاحية.