CP-DETR: Concept Prompt Guide DETR für eine stärkere universelle Objektdetektion

Kürzliche Forschung im Bereich der universellen Objektdetektion zielt darauf ab, Sprache in einen state-of-the-art (SoTA) geschlossenen-Set-Detektor einzuführen und anschließend offene-Set-Konzepte durch die Erstellung großskaliger (Text-Region)-Datensätze für das Training zu verallgemeinern. Diese Ansätze stoßen jedoch auf zwei zentrale Herausforderungen: (i) Wie kann die vorherige Information in den Prompten effizient genutzt werden, um Objekte generisch zu erfassen, und (ii) Wie kann die Ausrichtungsverzerrung in nachgelagerten Aufgaben reduziert werden? Beide Probleme führen zu suboptimalen Leistungen in bestimmten Szenarien jenseits des Vortrainings. Um diese Herausforderungen zu bewältigen, schlagen wir ein starkes universelles Detektions-Grundmodell namens CP-DETR vor, das in fast allen Szenarien konkurrenzfähig ist und lediglich ein einziges Vortrainingsgewicht benötigt. Konkret entwerfen wir einen effizienten Prompt-Visual-Hybrid-Encoder, der die Informationsinteraktion zwischen Prompt und visuellem Eingang durch Skalen-und Mehrskalen-Fusionsmodule verstärkt. Anschließend wird dieser Hybrid-Encoder durch eine Prompt-Mehrfachlabel-Verlustfunktion und eine zusätzliche Detektionshead-Struktur dazu befähigt, die Prompt-Informationen vollständig auszunutzen. Neben textbasierten Prompts haben wir zwei praktikable Methoden zur Generierung von Konzept-Prompts entwickelt: den visuellen Prompt und den optimierten Prompt. Diese ermöglichen es, abstrakte Konzepte durch konkrete visuelle Beispiele zu extrahieren und die Ausrichtungsverzerrung in nachgelagerten Aufgaben stabil zu verringern. Durch diese effektiven Gestaltungselemente zeigt CP-DETR eine herausragende Leistung bei der universellen Objektdetektion über einen breiten Spektrum an Szenarien. Beispielsweise erreicht unser Swin-T-Backbone-Modell eine Zero-Shot-AP von 47,6 auf LVIS, während der Swin-L-Backbone eine Zero-Shot-AP von 32,2 auf ODinW35 erzielt. Darüber hinaus erreicht unsere Methode zur visuellen Prompt-Generierung bei interaktiver Detektion eine AP von 68,4 auf COCO val, während der optimierte Prompt eine Fully-Shot-AP von 73,1 auf ODinW13 erreicht.