شبكة مقارنة المناطق للتصنيف الصوتي القائم على عدد قليل من الصور قابل للتفسير

بينما تم تطبيق التعلم العميق بنجاح في العديد من المهام الواقعية في رؤية الحاسوب، فإن تدريب تصنيفات قوية يتطلب عادةً كمية كبيرة من البيانات المُعلَّمة بدقة. ومع ذلك، فإن عملية التسمية غالبًا ما تكون مكلفة وطويلة الأمد. ولذلك، تم اقتراح التصنيف الصوري القائم على عدد قليل من الأمثلة (Few-shot Image Classification) بهدف الاستفادة الفعالة من عدد محدود جدًا من الأمثلة المُعلَّمة لتدريب النماذج على فئات جديدة. وقد حققت الدراسات الحديثة التي تعتمد على أساليب تعلم المقاييس القابلة للنقل أداءً تصنيفًا واعدًا من خلال تعلُّم درجة التشابه بين ميزات العينات من مجموعتي الاستعلام (query) والدعم (support). ومع ذلك، فإن عددًا قليلاً منها يأخذ بعين الاعتبار بشكل صريح قابلية تفسير النموذج، والتي يمكن في الواقع الكشف عنها أثناء مرحلة التدريب.ولذلك، في هذا العمل، نقترح طريقة قائمة على تعلم المقاييس تُسمى شبكة المقارنة الإقليمية (Region Comparison Network - RCN)، التي تُمكّن من كشف كيفية عمل التعلم القائم على عدد قليل من الأمثلة داخل الشبكة العصبية، فضلاً عن تحديد المناطق المحددة في الصور التي ترتبط ببعضها البعض من مجموعتي الاستعلام والدعم. علاوةً على ذلك، نقدّم استراتيجية تصور تُسمى خريطة تنشيط المنطقة (Region Activation Mapping - RAM)، لشرح ما تعلّمه نموذجنا بشكل مبسط من خلال تصور المتغيرات الوسيطة داخل الشبكة. كما نقدّم طريقة جديدة لتوسيع قابلية التفسير من مستوى المهمة إلى مستوى الفئة، والتي يمكن اعتبارها أيضًا أسلوبًا لتحديد الأجزاء النموذجية التي تدعم القرار النهائي لشبكة RCN. أظهرت التجارب الواسعة على أربع مجموعات بيانات معيارية فعالية طريقةنا مقارنةً بالأساليب القائمة.