Visual Grounding
Visual Grounding (VG) zielt darauf ab, das relevanteste Objekt oder die relevanteste Region in einem Bild basierend auf einer natürlichsprachlichen Abfrage zu lokalisieren. Die Kernherausforderungen dieser Aufgabe umfassen das Identifizieren des Hauptfokuspunkts in der Abfrage, das Verstehen des Bildinhalts und die genaue Lokalisierung des Zielobjekts. Visual Grounding verbessert nicht nur die Natürlichkeit und Genauigkeit der Mensch-Computer-Interaktion, sondern hat auch erhebliche Anwendungswerte in Bereichen wie Bildannotierung, Content-Retrieval und Szenenverstehen.