HyperAIHyperAI
vor 2 Monaten

CORA: Anpassung von CLIP für die Erkennung offener Vokabulare mit Regionen-Prompting und vorausehendem Anker-Matching

Wu, Xiaoshi ; Zhu, Feng ; Zhao, Rui ; Li, Hongsheng
CORA: Anpassung von CLIP für die Erkennung offener Vokabulare mit Regionen-Prompting und vorausehendem Anker-Matching
Abstract

Offen-vokabuläres Erkennung (OVD) ist eine Objekterkennungsaufgabe, die darauf abzielt, Objekte aus neuen Kategorien zu erkennen, die über die Basis-Kategorien hinausgehen, auf denen der Detektor trainiert wurde. Aktuelle OVD-Methoden stützen sich auf groß angelegte visuelle Sprachmodelle, wie z.B. CLIP, zur Erkennung neuer Objekte. Wir identifizieren zwei zentrale Hürden, die bei der Integration dieser Modelle in das Training des Detektors bewältigt werden müssen: (1) die Verteilungsunterschiede, die auftreten, wenn ein VL-Modell, das auf ganzen Bildern trainiert wurde, für regionale Erkennungsaufgaben eingesetzt wird; (2) die Schwierigkeit, Objekte unbekannter Klassen zu lokalisieren. Um diese Hürden zu überwinden, schlagen wir CORA vor, einen DETR-artigen Rahmen, der CLIP durch Regionenaufforderungen und Anker-Vorabzuordnungen für offene Vokabularerkennung anpasst. Die Regionenaufforderungen verringern den Verteilungsunterschied zwischen Ganzbild und Regionen durch Aufforderungen an die Regionenmerkmale des CLIP-basierten Regionenklassifikators. Die Anker-Vorabzuordnung unterstützt das Lernen von verallgemeinerbaren Objektlokalisationen durch ein klassenspezifisches Zuordnungsmechanismus. Wir evaluieren CORA am COCO-OVD-Benchmark und erreichen dabei 41,7 AP50 in den neuen Klassen, was das bisherige State-of-the-Art-Modell um 2,4 AP50 übertreffen kann, ohne zusätzliche Trainingsdaten zu verwenden. Wenn zusätzliche Trainingsdaten verfügbar sind, trainieren wir CORA$^+$ sowohl mit grundlegenden Annotationen der Basis-Klassen als auch mit zusätzlichen Pseudo-Bounding-Box-Labels, die von CORA berechnet wurden. CORA$^+$ erreicht 43,1 AP50 am COCO-OVD-Benchmark und 28,1 Box APr am LVIS-OVD-Benchmark.

CORA: Anpassung von CLIP für die Erkennung offener Vokabulare mit Regionen-Prompting und vorausehendem Anker-Matching | Neueste Forschungsarbeiten | HyperAI