HyperAIHyperAI
vor 2 Monaten

CoDet: Co-Occurrence-gesteuerte Region-Wort-Zuordnung für die offene Vokabular-Objekterkennung

Ma, Chuofan ; Jiang, Yi ; Wen, Xin ; Yuan, Zehuan ; Qi, Xiaojuan
CoDet: Co-Occurrence-gesteuerte Region-Wort-Zuordnung für die offene Vokabular-Objekterkennung
Abstract

Die Ableitung zuverlässiger Region-Wort-Zuordnungen aus Bild-Text-Paaren ist entscheidend für das Lernen von objektniveau-basierten visuellen und sprachlichen Repräsentationen zur Erkennung von Objekten mit offenen Vokabularen. Bestehende Methoden basieren in der Regel auf vorgefertigten oder selbsttrainierten visuellen und sprachlichen Modellen zur Zuordnung, die jedoch oft Einschränkungen in Bezug auf die Lokalisierungsgenauigkeit oder die Generalisierungsfähigkeiten haben. In dieser Arbeit schlagen wir CoDet vor, einen neuen Ansatz, der die Abhängigkeit von vorgefertigten visuellen und sprachlichen Räumen überwindet, indem er die Region-Wort-Zuordnung als ein Problem der Entdeckung gemeinsam auftretender Objekte reformuliert. Intuitiv gesehen, sollten Objekte, die einem gemeinsamen Konzept in den Bildunterschriften entsprechen, innerhalb einer Gruppe eine hohe Koexistenz aufweisen. CoDet nutzt dann visuelle Ähnlichkeiten, um diese gemeinsam auftretenden Objekte zu entdecken und sie dem gemeinsamen Konzept zuzuordnen. Ausführliche Experimente zeigen, dass CoDet überlegene Leistungen und beeindruckende Skalierbarkeit bei der Erkennung von Objekten mit offenen Vokabularen bietet. Zum Beispiel erreicht CoDet durch das Skalieren des visuellen Backbones Werte von 37,0 $\text{AP}^m_{novel}$ und 44,7 $\text{AP}^m_{all}$ auf OV-LVIS, was den bisherigen Stand der Technik (SoTA) um 4,2 $\text{AP}^m_{novel}$ und 9,8 $\text{AP}^m_{all}$ übertrifft. Der Quellcode ist unter https://github.com/CVMI-Lab/CoDet verfügbar.

CoDet: Co-Occurrence-gesteuerte Region-Wort-Zuordnung für die offene Vokabular-Objekterkennung | Neueste Forschungsarbeiten | HyperAI