HyperAIHyperAI

Command Palette

Search for a command to run...

LaMI-DETR: Open-Vocabulary-Detektion mit Sprachmodell-Anweisungen

Penghui Du Yu Wang Yifan Sun Luting Wang Yue Liao Gang Zhang Errui Ding Yan Wang Jingdong Wang Si Liu

Zusammenfassung

Bekannte Methoden verbessern die Open-Vocabulary-Objektdetektion, indem sie die robusten Fähigkeiten von Vision-Language-Modellen (VLMs), wie beispielsweise CLIP, zur Offen-Vokabular-Erkennung ausnutzen. Allerdings ergeben sich zwei zentrale Herausforderungen: (1) Eine unzureichende Konzeptrepräsentation, bei der die Kategorienbezeichnungen im Textraum von CLIP weder textuelle noch visuelle Kenntnisse enthalten; (2) Eine Neigung zur Überanpassung an Basiskategorien, wobei das Offen-Vokabular-Wissen bei der Übertragung von VLMs auf Detektoren tendenziell stark auf die Basiskategorien ausgerichtet ist. Um diese Probleme zu bewältigen, schlagen wir die Sprachmodell-Instruktion (LaMI)-Strategie vor, die die Beziehungen zwischen visuellen Konzepten nutzt und diese innerhalb eines einfachen, jedoch leistungsfähigen DETR-ähnlichen Detektors, namens LaMI-DETR, integriert. LaMI verwendet GPT, um visuelle Konzepte zu konstruieren, und T5, um visuelle Ähnlichkeiten zwischen Kategorien zu untersuchen. Diese zwischenkategorialen Beziehungen verfeinern die Konzeptrepräsentation und verhindern eine Überanpassung an Basiskategorien. Umfassende Experimente bestätigen die überlegene Leistung unseres Ansatzes gegenüber bestehenden Methoden unter denselben strengen Bedingungen, ohne externe Trainingsressourcen zu benötigen. LaMI-DETR erreicht eine seltene Box-AP von 43,4 auf OV-LVIS und übertrifft damit die bisher beste Methode um 7,8 Punkte an seltener Box-AP.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp