Verbesserte Ausbildung der fragenbasierten Objektdetektion durch selektive Abfrageerinnerung

Diese Arbeit untersucht ein Phänomen, bei dem abfragende Objektdetektoren in der letzten Dekodierstufe falsch vorhersagen, während sie in einer vorherigen Zwischenstufe korrekt vorhersagen. Wir analysieren den Trainingsprozess und weisen das bisher übersehene Phänomen zwei Beschränkungen zu: mangelnde Trainingsakzentuierung und kaskadenartige Fehler, die sich aus der Dekodiersequenz ergeben. Wir entwickeln und präsentieren Selective Query Recollection (SQR), eine einfache und effektive Trainingsstrategie für abfragende Objektdetektoren. SQR sammelt schrittweise Zwischenabfragen kontinuierlich während des fortschreitenden Dekodierprozesses und leitet diese selektiv an die nachfolgenden Stufen weiter, ohne dabei die sequenzielle Struktur zu befolgen. Auf diese Weise legt SQR den Trainingsakzent auf spätere Stufen und ermöglicht es diesen, direkt mit Zwischenabfragen aus früheren Stufen zu arbeiten. SQR lässt sich problemlos in verschiedene abfragende Objektdetektoren integrieren und verbessert deren Leistung erheblich, ohne die Inferenzpipeline zu verändern. In einer Reihe von Experimenten an Adamixer, DAB-DETR und Deformable-DETR unter verschiedenen Einstellungen (Backbone, Anzahl der Abfragen, Trainingsplan) erzielt SQR konsistent eine Verbesserung der AP um 1,4 bis 2,8.