HyperAIHyperAI

Command Palette

Search for a command to run...

Flickr30k Entitäten: Sammeln von Region-zu-Phrase-Korrespondenzen für reichere Bild-zu-Satz-Modelle

Bryan A. Plummer Liwei Wang Chris M. Cervantes Juan C. Caicedo Julia Hockenmaier Svetlana Lazebnik

Zusammenfassung

Der Flickr30k-Datensatz ist zu einem Standard-Referenzpunkt für satzbasierte Bildbeschreibungen geworden. In dieser Arbeit stellen wir Flickr30k Entities vor, der die 158.000 Bildunterschriften aus Flickr30k mit 244.000 Coreferenzketten erweitert, die Erwähnungen derselben Entitäten in verschiedenen Bildunterschriften für dasselbe Bild verknüpfen und sie mit 276.000 manuell annotierten Begrenzungsrahmen (bounding boxes) in Verbindung bringen. Solche Annotationen sind für den kontinuierlichen Fortschritt bei automatischen Bildbeschreibungen und sprachlicher Verankerung (grounded language understanding) unerlässlich. Sie ermöglichen es uns, einen neuen Referenzstandard für die Lokalisierung von textuellen Entitätsverweisen in einem Bild zu definieren. Wir präsentieren eine starke Baseline für diese Aufgabe, die ein Bild-Text-Embedding, Detektoren für gängige Objekte, einen Farbklassifikator und eine Verzerrung (bias) zugunsten größerer Objekte kombiniert. Obwohl unsere Baseline hinsichtlich der Genauigkeit komplexeren Stand-of-the-Art-Modellen gleichkommt, zeigen wir, dass ihre Vorteile sich nicht leicht in Verbesserungen bei solchen Aufgaben wie der Bilderfassung durch Sätze umsetzen lassen, was die Grenzen der aktuellen Methoden und die Notwendigkeit weiterer Forschung unterstreicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp