ميتاأوديو: معيار تصنيف الصوت بقليل من العينات

المعيار الحالي لتعلم النماذج ذات الأمثلة القليلة (التعلم الآلي باستخدام أمثلة تدريبية قليلة) محدود في المجالات التي يغطيها، حيث يركز بشكل أساسي على تصنيف الصور. تهدف هذه الدراسة إلى تخفيف الاعتماد على المعايير القائمة على الصور من خلال تقديم أول بديل شامل وعليم ومُعاد إنتاجه بالكامل يستند إلى الصوت، ويغطي مجموعة متنوعة من مجالات الأصوات وأوضاع التجارب. نقارن أداء تقنيات مختلفة في تصنيف النماذج ذات الأمثلة القليلة على سبعة مجموعات بيانات صوتية (تتراوح بين الأصوات البيئية والكلام البشري). بالإضافة إلى ذلك، نقوم بتحليلات شاملة للتدريب المشترك (حيث يتم استخدام جميع مجموعات البيانات أثناء التدريب) وبروتوكولات التكيف عبر مجموعات البيانات، مما يثبت إمكانية وجود خوارزمية تصنيف صوتية عامة ذات أمثلة قليلة. تظهر تجاربنا أن طرق التعلم الميتا المستندة إلى الجراديان مثل MAML و Meta-Curvature (ميتا-الانحناء) تتخطى باستمرار كلاً من الطرق المتريقة والأساسية. كما نوضح أن روتين التدريب المشترك يساعد في التعميم العام لمجموعات البيانات للأصوات البيئية المدرجة، وكذلك أنه طريقة فعالة نسبيًا للتعامل مع الإعداد عبر مجموعات البيانات/المجالات.