Command Palette
Search for a command to run...
CoDet: Co-Occurrence-gesteuerte Region-Wort-Zuordnung für die offene Vokabular-Objekterkennung
CoDet: Co-Occurrence-gesteuerte Region-Wort-Zuordnung für die offene Vokabular-Objekterkennung
Ma Chuofan ; Jiang Yi ; Wen Xin ; Yuan Zehuan ; Qi Xiaojuan
Zusammenfassung
Die Ableitung zuverlässiger Region-Wort-Zuordnungen aus Bild-Text-Paaren ist entscheidend für das Lernen von objektniveau-basierten visuellen und sprachlichen Repräsentationen zur Erkennung von Objekten mit offenen Vokabularen. Bestehende Methoden basieren in der Regel auf vorgefertigten oder selbsttrainierten visuellen und sprachlichen Modellen zur Zuordnung, die jedoch oft Einschränkungen in Bezug auf die Lokalisierungsgenauigkeit oder die Generalisierungsfähigkeiten haben. In dieser Arbeit schlagen wir CoDet vor, einen neuen Ansatz, der die Abhängigkeit von vorgefertigten visuellen und sprachlichen Räumen überwindet, indem er die Region-Wort-Zuordnung als ein Problem der Entdeckung gemeinsam auftretender Objekte reformuliert. Intuitiv gesehen, sollten Objekte, die einem gemeinsamen Konzept in den Bildunterschriften entsprechen, innerhalb einer Gruppe eine hohe Koexistenz aufweisen. CoDet nutzt dann visuelle Ähnlichkeiten, um diese gemeinsam auftretenden Objekte zu entdecken und sie dem gemeinsamen Konzept zuzuordnen. Ausführliche Experimente zeigen, dass CoDet überlegene Leistungen und beeindruckende Skalierbarkeit bei der Erkennung von Objekten mit offenen Vokabularen bietet. Zum Beispiel erreicht CoDet durch das Skalieren des visuellen Backbones Werte von 37,0 APnovelm und 44,7 APallm auf OV-LVIS, was den bisherigen Stand der Technik (SoTA) um 4,2 APnovelm und 9,8 APallm übertrifft. Der Quellcode ist unter https://github.com/CVMI-Lab/CoDet verfügbar.