Retrieval-Augmented Open-Vocabulary Object Detection

Open-vocabulary Object Detection (OVD) wurde mit Vision-Language-Modellen (VLMs) untersucht, um auch neue Objekte jenseits der vortrainierten Kategorien zu erkennen. Bisherige Ansätze verbessern die Generalisierungsfähigkeit, um das Wissensspektrum des Detektors zu erweitern, indem sie sogenannte „positive“ Pseudolabels mit zusätzlichen „Klassen“-Bezeichnungen wie z. B. sock (Socke), iPod oder alligator (Alligator) nutzen. Um die bestehenden Methoden in zwei Aspekten zu erweitern, schlagen wir Retrieval-Augmented Losses and visual Features (RALF) vor. Unsere Methode ruft verwandte „negative“ Klassen ab und erweitert die Verlustfunktionen. Zudem werden visuelle Merkmale durch „verbalisierte Konzepte“ der Klassen angereichert, beispielsweise „am Fuß getragen“, „handgehaltener Musikplayer“ oder „scharfe Zähne“. Konkret besteht RALF aus zwei Modulen: Retrieval Augmented Losses (RAL) und Retrieval-Augmented visuelle Merkmale (RAF). RAL umfasst zwei Verluste, die die semantische Ähnlichkeit mit negativen Vokabularien widerspiegeln. Zusätzlich erweitert RAF die visuellen Merkmale durch verbalisierte Konzepte, die von einem großen Sprachmodell (LLM) generiert werden. Unsere Experimente zeigen die Wirksamkeit von RALF auf den Benchmark-Datensätzen COCO und LVIS. Wir erreichen eine Steigerung von bis zu 3,4 Box AP${50}^{\text{N}}$ bei den neuen Kategorien des COCO-Datensatzes und 3,6 Mask AP${\text{r}}$-Gewinne auf dem LVIS-Datensatz. Der Quellcode ist unter https://github.com/mlvlab/RALF verfügbar.