Command Palette
Search for a command to run...
Zum Verständnis der visuellen Grundlage in visuellen Sprachmodellen
Zum Verständnis der visuellen Grundlage in visuellen Sprachmodellen
Georgios Pantazopoulos Eda B. Özyiğit
Zusammenfassung
Visual Grounding bezeichnet die Fähigkeit eines Modells, innerhalb einer visuellen Eingabe eine Region zu identifizieren, die einer textuellen Beschreibung entspricht. Ein Modell mit Fähigkeiten im Bereich des Visual Grounding kann daher eine Vielzahl von Anwendungen in unterschiedlichen Domänen unterstützen, beispielsweise die Verstehens von Bezugsausdrücken, die Beantwortung von Fragen zu feinkörnigen Details in Bildern oder Videos, die Erstellung von Bildunterschriften durch explizite Referenzierung von Entitäten sowie die Steuerung auf niedriger und hoher Ebene in simulierten und realen Umgebungen. In diesem Übersichtsartikel untersuchen wir repräsentative Arbeiten aus den zentralen Forschungsbereichen moderner allgemeiner visueller Sprachmodelle (Vision-Language-Modelle, VLMs). Zunächst erläutern wir die Bedeutung der Grundierung innerhalb von VLMs, skizzieren dann die zentralen Komponenten des aktuellen Paradigmas zur Entwicklung grundierter Modelle und analysieren deren praktische Anwendungen, einschließlich Benchmarks und Bewertungsmetriken für grundierte multimodale Generierung. Darüber hinaus diskutieren wir die vielschichtigen Wechselwirkungen zwischen Visual Grounding, multimodalem Chain-of-Thought und Schlussfolgerung in VLMs. Abschließend analysieren wir die inhärenten Herausforderungen des Visual Grounding und skizzieren vielversprechende Forschungspfade für zukünftige Arbeiten.