Relation DETR: Exploring Explicit Position Relation Prior for Object Detection Übersetzung: Relation DETR: Explizite Positionsbeziehungen für die Objekterkennung untersuchen

Dieses Papier präsentiert ein allgemeines Schema zur Verbesserung der Konvergenz und Leistung von DETR (DEtection TRansformer). Wir untersuchen das Problem der langsamen Konvergenz in Transformers aus einer neuen Perspektive und argumentieren, dass es auf die Selbst-Aufmerksamkeit (self-attention) zurückzuführen ist, die keine strukturelle Verzerrung über die Eingaben einführt. Um dieses Problem zu lösen, erforschen wir die Einbindung von Positionsbeziehungen als Aufmerksamkeitsverzerrung (attention bias), um die Objekterkennung zu verbessern. Dies erfolgt nach der Überprüfung ihrer statistischen Signifikanz mithilfe eines vorgeschlagenen quantitativen makroskopischen Korrelationsmaßes (MC-Metrik).Unser Ansatz, bezeichnet als Relation-DETR, führt einen Encoder ein, um Positionsbeziehungs-Embeddings für eine fortschreitende Aufmerksamkeitsverfeinerung zu konstruieren. Dies erweitert den traditionellen Streaming-Pipeline von DETR zu einem kontrastiven Beziehungs-Pipeline, um Konflikte zwischen nicht-doppelten Vorhersagen und positiver Überwachung zu lösen. Ausführliche Experimente sowohl auf generischen als auch auf task-spezifischen Datensätzen zeigen die Effektivität unseres Ansatzes. Unter denselben Konfigurationen erreicht Relation-DETR eine signifikante Verbesserung (+2,0% AP im Vergleich zu DINO), den aktuellen Stand der Technik (51,7% AP für 1x-Einstellungen und 52,1% AP für 2x-Einstellungen) sowie eine bemerkenswert schnellere Konvergenzgeschwindigkeit (über 40% AP mit nur 2 Trainings-Epochen) im Vergleich zu existierenden DETR-Detektoren auf COCO val2017.Darüber hinaus stellen wir einen klassenunabhängigen Detektionsdatensatz vor, SA-Det-100k. Die experimentellen Ergebnisse auf diesem Datensatz verdeutlichen, dass die vorgeschlagene explizite Positionsbeziehung eine klare Verbesserung von 1,3% AP bringt und ihre Potenzialität für universelle Objekterkennung unterstreicht. Der vorgeschlagene Beziehungs-Encoder dient als universales Plug-and-Play-Komponente und bietet klare Verbesserungen für theoretisch alle DETR-ähnlichen Methoden.Der Code und der Datensatz sind unter https://github.com/xiuqhou/Relation-DETR verfügbar.