LaMI-DETR: Open-Vocabulary-Detektion mit Sprachmodell-Anweisungen

Bekannte Methoden verbessern die Open-Vocabulary-Objektdetektion, indem sie die robusten Fähigkeiten von Vision-Language-Modellen (VLMs), wie beispielsweise CLIP, zur Offen-Vokabular-Erkennung ausnutzen. Allerdings ergeben sich zwei zentrale Herausforderungen: (1) Eine unzureichende Konzeptrepräsentation, bei der die Kategorienbezeichnungen im Textraum von CLIP weder textuelle noch visuelle Kenntnisse enthalten; (2) Eine Neigung zur Überanpassung an Basiskategorien, wobei das Offen-Vokabular-Wissen bei der Übertragung von VLMs auf Detektoren tendenziell stark auf die Basiskategorien ausgerichtet ist. Um diese Probleme zu bewältigen, schlagen wir die Sprachmodell-Instruktion (LaMI)-Strategie vor, die die Beziehungen zwischen visuellen Konzepten nutzt und diese innerhalb eines einfachen, jedoch leistungsfähigen DETR-ähnlichen Detektors, namens LaMI-DETR, integriert. LaMI verwendet GPT, um visuelle Konzepte zu konstruieren, und T5, um visuelle Ähnlichkeiten zwischen Kategorien zu untersuchen. Diese zwischenkategorialen Beziehungen verfeinern die Konzeptrepräsentation und verhindern eine Überanpassung an Basiskategorien. Umfassende Experimente bestätigen die überlegene Leistung unseres Ansatzes gegenüber bestehenden Methoden unter denselben strengen Bedingungen, ohne externe Trainingsressourcen zu benötigen. LaMI-DETR erreicht eine seltene Box-AP von 43,4 auf OV-LVIS und übertrifft damit die bisher beste Methode um 7,8 Punkte an seltener Box-AP.