HyperAIHyperAI

Command Palette

Search for a command to run...

Wer ist Waldo? Vernetzung von Personen in Text und Bildern

Claire Yuqing Cui Apoorv Khandelwal Yoav Artzi Noah Snavely Hadar Averbuch-Elor

Zusammenfassung

Wir präsentieren eine Aufgabe und ein Benchmark-Datensatz für personenzentrierte visuelle Verankerung, das Problem der Verknüpfung zwischen Personen, die in einer Bildunterschrift genannt werden, und Personen, die auf einem Bild abgebildet sind. Im Gegensatz zu früheren Arbeiten im Bereich der visuellen Verankerung, die hauptsächlich objektbasiert sind, maskiert unsere neue Aufgabe die Namen von Personen in den Bildunterschriften, um Methoden, die auf solchen Bild-Bildunterschrift-Paaren trainiert werden, dazu zu ermutigen, sich auf kontextuelle Hinweise (wie reiche Interaktionen zwischen mehreren Personen) zu konzentrieren, anstatt Assoziationen zwischen Namen und Erscheinungen zu lernen. Um diese Aufgabe zu erleichtern, führen wir einen neuen Datensatz ein: „Wer ist Waldo?“ (Who's Waldo), der automatisch aus Bild-Unterschriftendaten auf Wikimedia Commons gewonnen wurde. Wir schlagen eine transformerbasierte Methode vor, die bei dieser Aufgabe mehrere starke Baseline-Methoden übertrifft, und stellen unsere Daten der Forschergemeinschaft zur Verfügung, um Arbeiten an kontextuellen Modellen zu fördern, die sowohl Vision als auch Sprache berücksichtigen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp