Flickr30k Entitäten: Sammeln von Region-zu-Phrase-Korrespondenzen für reichere Bild-zu-Satz-Modelle

Der Flickr30k-Datensatz ist zu einem Standard-Referenzpunkt für satzbasierte Bildbeschreibungen geworden. In dieser Arbeit stellen wir Flickr30k Entities vor, der die 158.000 Bildunterschriften aus Flickr30k mit 244.000 Coreferenzketten erweitert, die Erwähnungen derselben Entitäten in verschiedenen Bildunterschriften für dasselbe Bild verknüpfen und sie mit 276.000 manuell annotierten Begrenzungsrahmen (bounding boxes) in Verbindung bringen. Solche Annotationen sind für den kontinuierlichen Fortschritt bei automatischen Bildbeschreibungen und sprachlicher Verankerung (grounded language understanding) unerlässlich. Sie ermöglichen es uns, einen neuen Referenzstandard für die Lokalisierung von textuellen Entitätsverweisen in einem Bild zu definieren. Wir präsentieren eine starke Baseline für diese Aufgabe, die ein Bild-Text-Embedding, Detektoren für gängige Objekte, einen Farbklassifikator und eine Verzerrung (bias) zugunsten größerer Objekte kombiniert. Obwohl unsere Baseline hinsichtlich der Genauigkeit komplexeren Stand-of-the-Art-Modellen gleichkommt, zeigen wir, dass ihre Vorteile sich nicht leicht in Verbesserungen bei solchen Aufgaben wie der Bilderfassung durch Sätze umsetzen lassen, was die Grenzen der aktuellen Methoden und die Notwendigkeit weiterer Forschung unterstreicht.