DINO: DETR مع صناديق ربط محسّنة للإزالة الضوضائية للكشف عن الكائنات من البداية إلى النهاية

نقدم DINO (\textbf{D}ETR مع \textbf{I}عَمَلِية تَنْقِيَة مُحسَّنة \textbf{N}و \textbf{O}رْبَات تَحْدِيد \textbf{A}نْكَر)، وهو كاشف كائنات من الدرجة الأولى يعمل بشكل مباشر من البداية إلى النهاية. يُحسّن DINO الأداء والكفاءة مقارنةً بالنماذج السابقة المشابهة لـ DETR من خلال استخدام نهج تبايني في التدريب مع التخلص من الضوضاء، وطريقة مختلطة لاختيار الاستفسارات لبدء التهيئة، ونموذج تنبؤ بـ "مربعات" يُطبّق مرتين مسبقًا. يحقق DINO دقة قدرها $49.4$ AP بعد 12 دورة تدريب، و$51.3$ AP بعد 24 دورة تدريب على مجموعة بيانات COCO باستخدام هيكل أساسي من نوع ResNet-50 وميزات متعددة المقاييس، ما يُمثّل تحسنًا ملحوظًا بنسبة $\textbf{+6.0}$\textbf{AP} و$\textbf{+2.7}$\textbf{AP} على التوالي مقارنةً بنموذج DETR السابق الأفضل، وهو DN-DETR. كما يُظهر DINO أداءً جيدًا عند التوسع في حجم النموذج وحجم البيانات. وبلا إضافات إضافية، وبعد التدريب المسبق على مجموعة بيانات Objects365 باستخدام هيكل SwinL، يُحقّق DINO أفضل النتائج على مجموعة بيانات COCO \texttt{val2017} ($\textbf{63.2}$\textbf{AP}) و\texttt{test-dev} (\textbf{$\textbf{63.3}$AP}). مقارنةً بالنماذج الأخرى في قائمة التصنيف، يقلّل DINO بشكل كبير من حجم النموذج وحجم بيانات التدريب المسبق، مع تحقيق نتائج أفضل. ستكون الشفرة المصدرية متاحة عبر الرابط: \url{https://github.com/IDEACVR/DINO}.