HyperAIHyperAI

Command Palette

Search for a command to run...

Offene-Domänen Visuelle Entitätserkennung: Auf dem Weg zur Erkennung von Millionen Wikipedia-Entitäten

Hexiang Hu Yi Luan Yang Chen Urvashi Khandelwal Mandar Joshi Kenton Lee Kristina Toutanova Ming-Wei Chang

Zusammenfassung

Großskalige multimodale Vor-Trainingsmodelle wie CLIP und PaLI zeigen eine starke Generalisierung in verschiedenen visuellen Domänen und Aufgaben. Dennoch bewerten existierende Bildklassifizierungsbenchmarks oft die Erkennung in einer spezifischen Domäne (z.B. Outdoor-Bilder) oder bei einer spezifischen Aufgabe (z.B. Klassifikation von Pflanzenarten), was nicht ausreicht, um zu prüfen, ob vortrainierte Grundlagenmodelle universelle visuelle Erkenner sind. Um dies zu beheben, stellen wir die Aufgabe der Offenen-Domänen-Visiellen-Entitäts-Erkennung (OVEN) formell vor, bei der ein Modell ein Bild auf eine Wikipedia-Entität im Bezug zu einer Textabfrage verknüpfen muss. Wir erstellen OVEN-Wiki durch die Neuausrichtung von 14 bestehenden Datensätzen, wobei alle Labels auf einen einzigen Labelraum abgestimmt werden: Wikipedia-Entitäten. OVEN fordert Modelle heraus, unter sechs Millionen möglichen Wikipedia-Entitäten auszuwählen, was es zum Benchmark für allgemeine visuelle Erkennung mit der größten Anzahl an Labels macht. Unsere Studie über state-of-the-art Vor-Trainingsmodelle zeigt erhebliches Potenzial zur Generalisierung in den massiv großen Labelraum. Wir demonstrieren, dass ein auf PaLI basierendes autoregressives visuelles Erkennungsmodell überraschend gut abschneidet, sogar bei Wikipedia-Entitäten, die während des Feinabstimmens nie gesehen wurden. Wir stellen auch fest, dass existierende Vor-Trainingsmodelle unterschiedliche Stärken aufweisen: Während PaLI-basierte Modelle insgesamt höhere Leistungen erzielen, sind CLIP-basierte Modelle besser darin, Entitäten am Ende der Verteilung zu erkennen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Offene-Domänen Visuelle Entitätserkennung: Auf dem Weg zur Erkennung von Millionen Wikipedia-Entitäten | Paper | HyperAI