HyperAIHyperAI

Command Palette

Search for a command to run...

CP-DETR: Concept Prompt Guide DETR für eine stärkere universelle Objektdetektion

Qibo Chen Weizhong Jin Jianyue Ge Mengdi Liu Yuchao Yan Jian Jiang Li Yu Xuanjiang Guo Shuchang Li Jianzhong Chen

Zusammenfassung

Kürzliche Forschung im Bereich der universellen Objektdetektion zielt darauf ab, Sprache in einen state-of-the-art (SoTA) geschlossenen-Set-Detektor einzuführen und anschließend offene-Set-Konzepte durch die Erstellung großskaliger (Text-Region)-Datensätze für das Training zu verallgemeinern. Diese Ansätze stoßen jedoch auf zwei zentrale Herausforderungen: (i) Wie kann die vorherige Information in den Prompten effizient genutzt werden, um Objekte generisch zu erfassen, und (ii) Wie kann die Ausrichtungsverzerrung in nachgelagerten Aufgaben reduziert werden? Beide Probleme führen zu suboptimalen Leistungen in bestimmten Szenarien jenseits des Vortrainings. Um diese Herausforderungen zu bewältigen, schlagen wir ein starkes universelles Detektions-Grundmodell namens CP-DETR vor, das in fast allen Szenarien konkurrenzfähig ist und lediglich ein einziges Vortrainingsgewicht benötigt. Konkret entwerfen wir einen effizienten Prompt-Visual-Hybrid-Encoder, der die Informationsinteraktion zwischen Prompt und visuellem Eingang durch Skalen-und Mehrskalen-Fusionsmodule verstärkt. Anschließend wird dieser Hybrid-Encoder durch eine Prompt-Mehrfachlabel-Verlustfunktion und eine zusätzliche Detektionshead-Struktur dazu befähigt, die Prompt-Informationen vollständig auszunutzen. Neben textbasierten Prompts haben wir zwei praktikable Methoden zur Generierung von Konzept-Prompts entwickelt: den visuellen Prompt und den optimierten Prompt. Diese ermöglichen es, abstrakte Konzepte durch konkrete visuelle Beispiele zu extrahieren und die Ausrichtungsverzerrung in nachgelagerten Aufgaben stabil zu verringern. Durch diese effektiven Gestaltungselemente zeigt CP-DETR eine herausragende Leistung bei der universellen Objektdetektion über einen breiten Spektrum an Szenarien. Beispielsweise erreicht unser Swin-T-Backbone-Modell eine Zero-Shot-AP von 47,6 auf LVIS, während der Swin-L-Backbone eine Zero-Shot-AP von 32,2 auf ODinW35 erzielt. Darüber hinaus erreicht unsere Methode zur visuellen Prompt-Generierung bei interaktiver Detektion eine AP von 68,4 auf COCO val, während der optimierte Prompt eine Fully-Shot-AP von 73,1 auf ODinW13 erreicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp