مجموعة DETR v2: كاشف كائنات قوي مع التدريب المسبق للنمط المشفر-المعالج

نقدّم كاشف كائنات قويًا يعتمد على التدريب المسبق والضبط الدقيق لشبكة مشفرة-فكّر، يُسمّى Group DETR v2. يُبنى هذا الأسلوب على معالج صور مبني على نموذج تحويل الصور (Vision Transformer) من نوع ViT-Huge~\cite{dosovitskiy2020image}، ونموذج مشتّق من نموذج DETR يُدعى DINO~\cite{zhang2022dino}، بالإضافة إلى طريقة فعّالة لتدريب نموذج DETR تُعرف بـ Group DETR~\cite{chen2022group}. يتكون عملية التدريب من ثلاث مراحل: التدريب الذاتي المسبق على معالج ViT-Huge باستخدام مجموعة بيانات ImageNet-1K، ثم التدريب المسبق للكاشف على مجموعة بيانات Object365، وأخيرًا الضبط الدقيق على مجموعة بيانات COCO. حقق Group DETR v2 تقييمًا قدره $\textbf{64.5}$ mAP على مجموعة بيانات COCO test-dev، مما يُثبّت إنجازًا جديدًا لحالة الفن (SoTA) في قائمة التصنيف الخاصة بـ COCO https://paperswithcode.com/sota/object-detection-on-coco