Offene-Domänen Visuelle Entitätserkennung: Auf dem Weg zur Erkennung von Millionen Wikipedia-Entitäten

Großskalige multimodale Vor-Trainingsmodelle wie CLIP und PaLI zeigen eine starke Generalisierung in verschiedenen visuellen Domänen und Aufgaben. Dennoch bewerten existierende Bildklassifizierungsbenchmarks oft die Erkennung in einer spezifischen Domäne (z.B. Outdoor-Bilder) oder bei einer spezifischen Aufgabe (z.B. Klassifikation von Pflanzenarten), was nicht ausreicht, um zu prüfen, ob vortrainierte Grundlagenmodelle universelle visuelle Erkenner sind. Um dies zu beheben, stellen wir die Aufgabe der Offenen-Domänen-Visiellen-Entitäts-Erkennung (OVEN) formell vor, bei der ein Modell ein Bild auf eine Wikipedia-Entität im Bezug zu einer Textabfrage verknüpfen muss. Wir erstellen OVEN-Wiki durch die Neuausrichtung von 14 bestehenden Datensätzen, wobei alle Labels auf einen einzigen Labelraum abgestimmt werden: Wikipedia-Entitäten. OVEN fordert Modelle heraus, unter sechs Millionen möglichen Wikipedia-Entitäten auszuwählen, was es zum Benchmark für allgemeine visuelle Erkennung mit der größten Anzahl an Labels macht. Unsere Studie über state-of-the-art Vor-Trainingsmodelle zeigt erhebliches Potenzial zur Generalisierung in den massiv großen Labelraum. Wir demonstrieren, dass ein auf PaLI basierendes autoregressives visuelles Erkennungsmodell überraschend gut abschneidet, sogar bei Wikipedia-Entitäten, die während des Feinabstimmens nie gesehen wurden. Wir stellen auch fest, dass existierende Vor-Trainingsmodelle unterschiedliche Stärken aufweisen: Während PaLI-basierte Modelle insgesamt höhere Leistungen erzielen, sind CLIP-basierte Modelle besser darin, Entitäten am Ende der Verteilung zu erkennen.