MI-DETR: Ein Objektdetektionsmodell mit Mechanismus für mehrfache Abfragen über Zeitintervalle

Ausgehend von der Analyse der charakteristischen Eigenschaften der kaskadierten Decoder-Architektur, die in bestehenden DETR-ähnlichen Modellen üblich ist, wird in diesem Paper eine neue Decoder-Architektur vorgeschlagen. Die kaskadierte Decoder-Architektur beschränkt die Aktualisierung der Objekt-Abfragen auf die kaskadierte Richtung, wodurch diese nur auf begrenzte Informationen aus den Bilddaten lernen können. Die Herausforderungen der Objektdetektion in natürlichen Szenen – beispielsweise extrem kleine, stark verdeckte sowie schwer vom Hintergrund zu unterscheidende Objekte – erfordern jedoch, dass ein Objektdetektionsmodell die Bilddaten möglichst vollständig ausnutzt. Dies motiviert uns, eine neue Decoder-Architektur mit einem parallelen Multi-Time Inquiries (MI)-Mechanismus vorzuschlagen. Der MI-Mechanismus ermöglicht es den Objekt-Abfragen, umfassendere Informationen zu erlernen. Unser MI-basiertes Modell, MI-DETR, erreicht auf dem COCO-Benchmark bei unterschiedlichen Backbones und Trainingszyklen eine bessere Leistung als alle bestehenden DETR-ähnlichen Modelle. Im Vergleich zum repräsentativsten Modell DINO und dem SOTA-Modell Relation-DETR unter Verwendung des ResNet-50-Backbones erzielt MI-DETR eine Verbesserung um +2,3 AP und +0,6 AP. Zudem belegen eine Reihe von diagnostischen und visuellen Experimenten die Wirksamkeit, Plausibilität und Interpretierbarkeit des MI-Mechanismus.