HyperAIHyperAI
vor 2 Monaten

Die Lücke zwischen Objekt- und Bildniveau-Darstellungen für die offene Vokabularerkennung überbrücken

Hanoona Rasheed; Muhammad Maaz; Muhammad Uzair Khattak; Salman Khan; Fahad Shahbaz Khan
Die Lücke zwischen Objekt- und Bildniveau-Darstellungen für die offene Vokabularerkennung überbrücken
Abstract

Bestehende offene Wortschatz-Objekterkennungssysteme erweitern in der Regel ihren Wortschatz durch die Nutzung verschiedener Formen schwacher Überwachung. Dies hilft, bei der Inferenz auf neue Objekte zu generalisieren. Zwei weit verbreitete Formen der schwachen Überwachung im Bereich der offenen Wortschatzerkennung (OVD) sind das vortrainierte CLIP-Modell und die bildbasierte Überwachung. Wir bemerken, dass beide Formen der Überwachung nicht optimal für die Erkennungsaufgabe ausgerichtet sind: CLIP wird mit Bild-Text-Paaren trainiert und fehlt es an präziser Lokalisierung von Objekten, während die bildbasierte Überwachung mit Heuristiken verwendet wird, die lokale Objektregionen nicht genau spezifizieren. In dieser Arbeit schlagen wir vor, dieses Problem durch eine objektorientierte Ausrichtung der Sprachembeddings des CLIP-Modells zu lösen. Darüber hinaus verankern wir die Objekte visuell nur mit bildbasierter Überwachung mithilfe eines Pseudolabeling-Prozesses, der hochwertige Objektvorschläge liefert und den Wortschatz während des Trainings erweitert. Wir etablieren eine Brücke zwischen den beiden oben genannten Strategien zur Objekt-Ausrichtung durch eine neuartige Gewichtstransferfunktion, die ihre ergänzenden Stärken aggregiert. Im Wesentlichen strebt das vorgeschlagene Modell an, die Lücke zwischen objektorientierten und bildzentrierten Repräsentationen in der OVD-Einstellung zu minimieren. Auf dem COCO-Benchmark erreicht unser vorgeschlagener Ansatz ein AP50 von 36,6 % auf neuen Klassen, was einen absoluten Vorteil von 8,2 Punkten gegenüber der bisher besten Leistung darstellt. Für LVIS übertreffen wir das state-of-the-art ViLD-Modell um 5,0 Mask AP für seltene Kategorien und insgesamt um 3,4 Punkte. Quellcode: https://github.com/hanoonaR/object-centric-ovd.

Die Lücke zwischen Objekt- und Bildniveau-Darstellungen für die offene Vokabularerkennung überbrücken | Neueste Forschungsarbeiten | HyperAI