HyperAIHyperAI
vor 2 Monaten

Wer ist Waldo? Vernetzung von Personen in Text und Bildern

Claire Yuqing Cui; Apoorv Khandelwal; Yoav Artzi; Noah Snavely; Hadar Averbuch-Elor
Wer ist Waldo? Vernetzung von Personen in Text und Bildern
Abstract

Wir präsentieren eine Aufgabe und ein Benchmark-Datensatz für personenzentrierte visuelle Verankerung, das Problem der Verknüpfung zwischen Personen, die in einer Bildunterschrift genannt werden, und Personen, die auf einem Bild abgebildet sind. Im Gegensatz zu früheren Arbeiten im Bereich der visuellen Verankerung, die hauptsächlich objektbasiert sind, maskiert unsere neue Aufgabe die Namen von Personen in den Bildunterschriften, um Methoden, die auf solchen Bild-Bildunterschrift-Paaren trainiert werden, dazu zu ermutigen, sich auf kontextuelle Hinweise (wie reiche Interaktionen zwischen mehreren Personen) zu konzentrieren, anstatt Assoziationen zwischen Namen und Erscheinungen zu lernen. Um diese Aufgabe zu erleichtern, führen wir einen neuen Datensatz ein: „Wer ist Waldo?“ (Who's Waldo), der automatisch aus Bild-Unterschriftendaten auf Wikimedia Commons gewonnen wurde. Wir schlagen eine transformerbasierte Methode vor, die bei dieser Aufgabe mehrere starke Baseline-Methoden übertrifft, und stellen unsere Daten der Forschergemeinschaft zur Verfügung, um Arbeiten an kontextuellen Modellen zu fördern, die sowohl Vision als auch Sprache berücksichtigen.

Wer ist Waldo? Vernetzung von Personen in Text und Bildern | Neueste Forschungsarbeiten | HyperAI