Image Text Matching
Bild-Text-Zuordnung ist eine Teilmenge der Cross-Modal Retrieval (CMR), die darauf abzielt, Assoziationen zwischen Bildern und ihren entsprechenden textuellen Beschreibungen herzustellen. Das Ziel besteht darin, relevante Bilder bei einer Textanfrage zu finden oder entsprechende Textbeschreibungen bei einer Bildanfrage zu ermitteln. Diese Aufgabe ist aufgrund des Heterogenitätsabstands zwischen der Darstellung von Bild- und Textdaten herausfordernd und wird in Szenarien wie inhaltsbasierter Bildsuche, visueller Fragebeantwortung und multimodaler Zusammenfassung weit verbreitet eingesetzt.