Komplexe multimodale Prototypen sind einfache und effektive Klassifizierer für die Erkennung von Objekten mit umfangreichem Wortschatz

Das Enable von Modellen, um eine Vielzahl offener Kategorien der realen Welt zu erkennen, ist seit langem ein Ziel im Bereich der Objekterkennung. Durch die Nutzung der Generalisierungsfähigkeiten visueller und sprachlicher Modelle können aktuelle Off-World-Detektoren ein breiteres Spektrum an Vokabularien erkennen, obwohl sie auf begrenzten Kategorien trainiert wurden. Allerdings verringern sich die Erkennungsleistungen dieser Detektoren erheblich, wenn das Vokabular der Kategorien während des Trainings auf ein reale-Welt-Level ausgedehnt wird, insbesondere wenn frühere Klassifizierer mit groben Klassenbezeichnungen ausgerichtet waren. In diesem Artikel stellen wir Prova vor, einen multimodalen Prototypenklassifizierer für die Erkennung von Objekten mit großem Vokabular. Prova extrahiert umfassende multimodale Prototypen als Initialisierung für Ausrichtungsklassifizierer, um das Problem der fehlgeschlagenen Erkennung von Objekten mit großem Vokabular zu bewältigen. Auf V3Det verbessert diese einfache Methode die Leistung bei One-Stage-, Two-Stage- und DETR-basierten Detektoren erheblich, wobei lediglich zusätzliche Projektionsschichten sowohl in überwachten als auch in off-Vokabular-Einstellungen hinzugefügt werden. Insbesondere verbessert Prova in der überwachten Einstellung von V3Det den Faster R-CNN, den FCOS und den DINO um 3,3, 6,2 und 2,9 AP (Average Precision) respektive. Für die off-Vokabular-Einstellung erreicht Prova eine neue Standarte der Technik (State-of-the-Art) mit 32,8 Basis-AP und 11,0 Novel-AP, was eine Steigerung von 2,6 und 4,3 gegenüber früheren Methoden darstellt.