الرأس الديناميكي: توحيد رؤوس كشف الكائنات باستخدام الانتباه

إن الطبيعة المعقدة لدمج التحديد المكاني والتصنيف في كشف الكائنات قد أدى إلى تطور مكثف للطرق المختلفة. حاولت الدراسات السابقة تحسين الأداء في مختلف رؤوس كشف الكائنات، لكنها فشلت في تقديم نظرة موحدة. في هذا البحث، نقدّم إطارًا جديدًا يُسمى "رأس ديناميكي" يوحد رؤوس كشف الكائنات باستخدام آليات الانتباه. من خلال دمج متماسك لآليات الانتباه الذاتي المتعددة بين مستويات الميزات لتحقيق الوعي بالمقاييس، وبين المواقع المكانية لتحقيق الوعي المكاني، وفي قنوات الإخراج لتحقيق الوعي بالمهام، يُحسّن النهج المقترح بشكل كبير قدرة تمثيل رؤوس كشف الكائنات دون إضافة أي عبء حسابي. كما تُظهر التجارب الإضافية فعالية وكفاءة الرأس الديناميكي المقترح على معيار COCO. وباستخدام هيكل أساسي قياسي من نوع ResNeXt-101-DCN، نحقق تحسينًا كبيرًا في الأداء مقارنةً بالعديد من كواشف الكائنات الشائعة، ونصل إلى أداء جديد قياسي بـ 54.0 AP. علاوةً على ذلك، وباستخدام هيكل أساسي مبني على المُحَوِّل (Transformer) الأحدث وبيانات إضافية، نتمكن من تحقيق رقم قياسي جديد على معيار COCO بـ 60.6 AP. سيتم إصدار الشفرة المصدرية على الرابط: https://github.com/microsoft/DynamicHead.