HyperAIHyperAI

Command Palette

Search for a command to run...

CORA: Anpassung von CLIP für die Erkennung offener Vokabulare mit Regionen-Prompting und vorausehendem Anker-Matching

Xiaoshi Wu Feng Zhu Rui Zhao Hongsheng Li

Zusammenfassung

Offen-vokabuläres Erkennung (OVD) ist eine Objekterkennungsaufgabe, die darauf abzielt, Objekte aus neuen Kategorien zu erkennen, die über die Basis-Kategorien hinausgehen, auf denen der Detektor trainiert wurde. Aktuelle OVD-Methoden stützen sich auf groß angelegte visuelle Sprachmodelle, wie z.B. CLIP, zur Erkennung neuer Objekte. Wir identifizieren zwei zentrale Hürden, die bei der Integration dieser Modelle in das Training des Detektors bewältigt werden müssen: (1) die Verteilungsunterschiede, die auftreten, wenn ein VL-Modell, das auf ganzen Bildern trainiert wurde, für regionale Erkennungsaufgaben eingesetzt wird; (2) die Schwierigkeit, Objekte unbekannter Klassen zu lokalisieren. Um diese Hürden zu überwinden, schlagen wir CORA vor, einen DETR-artigen Rahmen, der CLIP durch Regionenaufforderungen und Anker-Vorabzuordnungen für offene Vokabularerkennung anpasst. Die Regionenaufforderungen verringern den Verteilungsunterschied zwischen Ganzbild und Regionen durch Aufforderungen an die Regionenmerkmale des CLIP-basierten Regionenklassifikators. Die Anker-Vorabzuordnung unterstützt das Lernen von verallgemeinerbaren Objektlokalisationen durch ein klassenspezifisches Zuordnungsmechanismus. Wir evaluieren CORA am COCO-OVD-Benchmark und erreichen dabei 41,7 AP50 in den neuen Klassen, was das bisherige State-of-the-Art-Modell um 2,4 AP50 übertreffen kann, ohne zusätzliche Trainingsdaten zu verwenden. Wenn zusätzliche Trainingsdaten verfügbar sind, trainieren wir CORA+^++ sowohl mit grundlegenden Annotationen der Basis-Klassen als auch mit zusätzlichen Pseudo-Bounding-Box-Labels, die von CORA berechnet wurden. CORA+^++ erreicht 43,1 AP50 am COCO-OVD-Benchmark und 28,1 Box APr am LVIS-OVD-Benchmark.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp