ثنائي النمذجة المقنع: نحو إطار تدريب مسبق شامل للصوت

التعلم ذاتي الإشراف باستخدام التنبؤ المقنّع قد حقق تقدماً كبيراً في تمثيل الصوت العام. تقدم هذه الدراسة نموذج التنبؤ المقنّع المحسّن "موديلينغ ديو المقنّع" (M2D)، الذي يتعلم من خلال التنبؤ بتمثيلات الإشارات المقنّعة التي تعمل كإشارات تدريب. على عكس الأساليب التقليدية، يحصل M2D على إشارة تدريبية عن طريق ترميز الجزء المقنّع فقط، مما يشجع الشبكتين في M2D على نمذجة الإدخال. بينما يحسن M2D من تمثيلات الصوت العامة، فإن تمثيلاً متخصصاً هو ضروري للتطبيقات العملية مثل تلك في المجالات الصناعية والطبية. تكون البيانات السرية والمملوكة غالباً محدودة الحجم وتتميز بتوزيع مختلف عن ذلك الموجود في مجموعات البيانات الأولية. لذلك، نقترح M2D لـ X (M2D-X)، وهو امتداد لـ M2D يمكنه تحقيق التدريب الأولي للتمثيلات المتخصصة لتطبيق X. يتعلم M2D-X من M2D ومن مهمة إضافية وإدخال الضوضاء الخلفية. نجعل المهمة الإضافية قابلة للتخصيص لتلبية مجموعة متنوعة من التطبيقات، بينما يساعد الضوضاء الخلفية على التعلم من بيانات صغيرة ويشكل مهمة تنقية تعزز صلابة التمثيل. مع هذه الخيارات التصميمية، يجب أن يكون M2D-X قادراً على تعلم تمثيل متخصص يلبي احتياجات التطبيقات المختلفة. أثبتت تجاربنا أن التمثيلات للصوت العام، والتي تم تخصيصها للمجال التنافسي للغاية AudioSet ومجال الكلام، وكذلك مهمة طبية صغيرة البيانات، حققت أداءً رفيع المستوى، مما يدل على إمكانية استخدام نماذجنا كإطار عام للتدريب الأولي للصوت. الرمز البرمجي الخاص بنا متاح عبر الإنترنت للمزيد من الدراسات في الرابط التالي: https://github.com/nttcslab/m2d