شبكة الانتباه الهرمية للكشف عن الكائنات بعينة قليلة من خلال التعلم الميتا-التمايزي

يهدف الكشف عن الكائنات بعينات قليلة (FSOD) إلى تصنيف وتحديد كائنات فئات جديدة باستخدام عدد قليل من الصور. تعاني الطرق الحالية القائمة على التعلم التفاعلي من عدم استغلالها الكامل للخصائص بين الصور الداعمة (support) والصور الاستقصائية (query) بسبب قيود هيكلية. نقترح شبكة انتباه تسلسلية ذات مجالات استقبال متسلسلة ومتزايدة، تُمكّن من استغلال الصور الاستقصائية والداعمة بشكل كامل. بالإضافة إلى ذلك، لا يتميز التعلم التفاعلي بتمييز جيد بين الفئات، لأنه يعتمد على تحديد ما إذا كانت الصور الداعمة والاستقصائية متوافقة أم لا. بمعنى آخر، يُعد التعلم القائم على المقاييس غير فعّال في التصنيف لأنه لا يعمل بشكل مباشر. ولذلك، نقترح طريقة تعلم تباينيّة تُسمى التعلم التفاعلي التبايني (meta-contrastive learning)، التي تساعد بشكل مباشر على تحقيق هدف استراتيجية التعلم التفاعلي. وأخيرًا، نُنشئ شبكة جديدة تمثل الحد الأقصى للحالة الحالية (state-of-the-art)، من خلال تحقيق فجوات كبيرة في الأداء. تُظهر طريقة العمل تحسينات بنسبة 2.3% و1.0% و1.3% و3.4% و2.4% في دقة القياس (AP) للكشف عن الكائنات بعينات من 1 إلى 30 صورة على مجموعة بيانات COCO. يمكن الوصول إلى الكود الخاص بنا من خلال: https://github.com/infinity7428/hANMCL