Meta R-CNN: نحو حلّ عام لتعلم القليل من الأمثلة على مستوى المثيل

تماثل القدرة الفائقة على التعلم لدى البشر، يمكّن التعلم القليل العينات (few-shot learning) أنظمة الرؤية من فهم مفاهيم جديدة من خلال تدريبها باستخدام عدد قليل من العينات. تعتمد الطرق الرائدة المستمدة من التعلم المتعدد (meta-learning) على صور تحتوي على كائن بصري واحد فقط. ومع ذلك، تُعقد هذه الطرق بفضل الخلفيات المعقدة والكائنات المتعددة الموجودة في الصورة الواحدة، مما يعيق تقدّم أبحاث الكشف عن الكائنات أو التقسيم (segmentation) في سياق التعلم القليل العينات. في هذا العمل، نقدّم منهجية مرنة وشاملة لتحقيق هذه المهام. نوسع نموذج Faster /Mask R-CNN من خلال اقتراح التعلم المتعدد على ميزات مناطق الاهتمام (RoI) بدلًا من ميزات الصورة الكاملة. يُمكّن هذا المبدأ البسيط من فصل المعلومات المتعلقة بعدة كائنات التي تختلط مع الخلفية، دون تعقيدات إضافية، مما يتيح لنموذج Faster /Mask R-CNN أن يصبح "متعلمًا متعددًا" (meta-learner) ويحقق المهام المطلوبة. وبشكل محدد، نقدّم شبكة إعادة تصميم رأس التنبؤ (Predictor-head Remodeling Network - PRN)، والتي تشارك نفس الهيكل الأساسي (backbone) مع Faster /Mask R-CNN. تستقبل PRN صورًا تحتوي على كائنات قليلة العينات مع مربعات حدودية أو أقنعة لاستنتاج متجهات انتباه فئة (class attentive vectors). تُطبّق هذه المتجهات انتباهًا ناعمًا حسب القنوات على ميزات RoI، مما يعيد تصميم رؤوس التنبؤ في نموذج R-CNN للكشف عن الكائنات أو تقسيمها بما يتوافق مع الفئات التي تمثلها هذه المتجهات. في تجاربنا، يُظهر نموذج Meta R-CNN أداءً متقدمًا على مستوى الحالة الحالية (state-of-the-art) في الكشف عن الكائنات القليلة العينات، ويُحسّن أداء التقسيم الكائنات القليلة العينات مقارنةً بنموذج Mask R-CNN.