HyperAIHyperAI

Command Palette

Search for a command to run...

Retrieval-Augmented Open-Vocabulary Object Detection

Jooyeon Kim Eulrang Cho Sehyung Kim Hyunwoo J. Kim

Zusammenfassung

Open-vocabulary Object Detection (OVD) wurde mit Vision-Language-Modellen (VLMs) untersucht, um auch neue Objekte jenseits der vortrainierten Kategorien zu erkennen. Bisherige Ansätze verbessern die Generalisierungsfähigkeit, um das Wissensspektrum des Detektors zu erweitern, indem sie sogenannte „positive“ Pseudolabels mit zusätzlichen „Klassen“-Bezeichnungen wie z. B. sock (Socke), iPod oder alligator (Alligator) nutzen. Um die bestehenden Methoden in zwei Aspekten zu erweitern, schlagen wir Retrieval-Augmented Losses and visual Features (RALF) vor. Unsere Methode ruft verwandte „negative“ Klassen ab und erweitert die Verlustfunktionen. Zudem werden visuelle Merkmale durch „verbalisierte Konzepte“ der Klassen angereichert, beispielsweise „am Fuß getragen“, „handgehaltener Musikplayer“ oder „scharfe Zähne“. Konkret besteht RALF aus zwei Modulen: Retrieval Augmented Losses (RAL) und Retrieval-Augmented visuelle Merkmale (RAF). RAL umfasst zwei Verluste, die die semantische Ähnlichkeit mit negativen Vokabularien widerspiegeln. Zusätzlich erweitert RAF die visuellen Merkmale durch verbalisierte Konzepte, die von einem großen Sprachmodell (LLM) generiert werden. Unsere Experimente zeigen die Wirksamkeit von RALF auf den Benchmark-Datensätzen COCO und LVIS. Wir erreichen eine Steigerung von bis zu 3,4 Box AP50N{50}^{\text{N}}50N bei den neuen Kategorien des COCO-Datensatzes und 3,6 Mask APr{\text{r}}r-Gewinne auf dem LVIS-Datensatz. Der Quellcode ist unter https://github.com/mlvlab/RALF verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Retrieval-Augmented Open-Vocabulary Object Detection | Paper | HyperAI