NMS تردّ

يحوّل نموذج الكشف عبر التحويل (DETR) الاستفسارات مباشرةً إلى كائنات فريدة من خلال استخدام التوافقيات الثنائية ذات التوافق الواحد-إلى-واحد أثناء التدريب، مما يمكّن من الكشف عن الكائنات بشكل متكامل من البداية إلى النهاية. في الآونة الأخيرة، تفوّقت هذه النماذج على النماذج التقليدية في مجموعة بيانات COCO بأسلوب مُبهر لا يمكن إنكاره. ومع ذلك، تختلف هذه النماذج عن النماذج التقليدية في عدة جوانب تصميمية، بما في ذلك البنية المعمارية وجدول التدريب، وبالتالي لا يزال فهم فعالية التوافق الواحد-إلى-واحد غير كامل. في هذا العمل، نقوم بمقارنة صارمة بين التوافق الثنائي الواحد-إلى-واحد في نماذج DETR والتعيينات متعددة-إلى-واحد في النماذج التقليدية التي تعتمد على تعيينات مبنية على معيار "عدم الحذف الأقصى" (NMS). بشكل مفاجئ، نلاحظ أن التعيينات متعددة-إلى-واحد مع NMS تتفوّق باستمرار على التوافق الواحد-إلى-واحد القياسي في نفس الشروط، مع تحقيق مكسب ملحوظ يصل إلى 2.5 نقطة في مقياس mAP. وبلغت دقة النموذج الذي تم تدريبه باستخدام تعيينات مبنية على معامل التداخل بين المربعات (IoU) التقليدية مع نموذج Deformable-DETR 50.2 نقطة mAP على مجموعة بيانات COCO خلال 12 دورة تدريب (جدول 1x) باستخدام هيكل ResNet50، متفوّقاً على جميع النماذج التقليدية أو القائمة على التحويلات في هذا السياق. وبشكل متسق عبر عدة مجموعات بيانات، وجدول تدريب، وأطر بنائية، نُظهر أن التوافق الثنائي ليس ضرورياً لتحقيق أداء عالٍ في نماذج الكشف القائمة على التحويلات. علاوةً على ذلك، نُنسب نجاح نماذج الكشف القائمة على التحويلات إلى قدرتها العالية في التعبير عن البنية المعمارية القائمة على التحويلات. يمكن الوصول إلى الكود من خلال الرابط التالي: https://github.com/jozhang97/DETA.