Phrase-Anchoring
Phrase Grounding ist eine Unterabgabe im Bereich der natürlichen Sprachverarbeitung, die darauf abzielt, jede Entität, die durch Nominalphrasen in Bildunterschriften erwähnt wird, mit den entsprechenden Bereichen im Bild zu verknüpfen. Diese Aufgabe verbessert das Verständnis und die Interaktionsfähigkeiten von multimodalen Daten, indem sie feingranulare Assoziationen zwischen Bildern und Text herstellt. Dies ist von großer Bedeutung für die Leistungssteigerung von Anwendungen wie visuelle Fragebeantwortung, Bildsuche und automatische Bildannotierung.