HyperAIHyperAI
vor 2 Monaten

DualCoOp: Schnelle Anpassung an die Mehrfachkennzeichnungserkennung bei begrenzten Annotationen

Ximeng Sun; Ping Hu; Kate Saenko
DualCoOp: Schnelle Anpassung an die Mehrfachkennzeichnungserkennung bei begrenzten Annotationen
Abstract

Die Lösung von Multi-Label-Erkennung (MLR) für Bilder im Bereich der geringen Beschriftung ist eine herausfordernde Aufgabe mit vielen praktischen Anwendungen. Kürzliche Arbeiten lernen eine Ausrichtung zwischen textualem und visuellem Raum, um mangelnde Bildbeschriftungen auszugleichen, verlieren aber an Genauigkeit aufgrund der begrenzten Menge an verfügbaren MLR-Annotierungen. In dieser Arbeit nutzen wir die starke Ausrichtung von textuellen und visuellen Merkmalen, die mit Millionen von Hilfsbild-Text-Paaren vortrainiert wurden, und schlagen Dual Context Optimization (DualCoOp) als einheitliches Framework für teilweise beschriftete MLR und zero-shot MLR vor. DualCoOp kodiert positive und negative Kontexte mit Klassennamen als Teil der sprachlichen Eingabe (d.h. Prompts). Da DualCoOp nur einen sehr geringen lernfähigen Overhead zum vortrainierten visuellen-sprachlichen Framework hinzufügt, kann es sich schnell an Multi-Label-Erkenntisaufgaben anpassen, die über begrenzte Annotierungen verfügen und sogar unbekannte Klassen betreffen. Experimente auf Standard-Multi-Label-Erkennungsbenchmarks in zwei anspruchsvollen Einstellungen mit geringer Beschriftung zeigen die Vorteile unseres Ansatzes gegenüber den neuesten Methoden.

DualCoOp: Schnelle Anpassung an die Mehrfachkennzeichnungserkennung bei begrenzten Annotationen | Neueste Forschungsarbeiten | HyperAI