vor 17 Tagen

Verknüpfung von Vision und Sprache mittels lokaler Erzählungen

Jordi Pont-Tuset, Jasper Uijlings, Soravit Changpinyo, Radu Soricut, Vittorio Ferrari

Abstract

Wir schlagen Localized Narratives vor, eine neue Form multimodaler Bildannotierungen, die Vision und Sprache verbindet. Wir bitten die Annotatoren, ein Bild mit ihrer Stimme zu beschreiben, während sie gleichzeitig die Maus über den Bereich bewegen, den sie beschreiben. Da Stimme und Mauszeiger synchronisiert sind, können wir jedes einzelne Wort der Beschreibung räumlich lokalisieren. Diese dichte visuelle Grundlage nimmt die Form eines Mausverlaufssegments pro Wort an und ist einzigartig für unsere Daten. Wir haben 849.000 Bilder mit Localized Narratives annotiert: alle Bilder der COCO-, Flickr30k- und ADE20K-Datensätze sowie 671.000 Bilder aus Open Images, die wir öffentlich zugänglich machen. Wir präsentieren eine umfassende Analyse dieser Annotierungen und zeigen, dass sie vielfältig, genau und effizient zu erzeugen sind. Zudem demonstrieren wir ihre Nützlichkeit für die Anwendung kontrollierter Bildbeschreibung.