DualVD: Ein adaptives Dual-Encoding-Modell für tiefes visuelles Verständnis in visuellen Dialogen

Im Gegensatz zur Aufgabe des Visual Question Answering (VQA), bei der lediglich eine einzige Frage zu einem Bild beantwortet werden muss, umfasst Visual Dialogue mehrere Fragen, die eine breite Palette visueller Inhalte abdecken können, einschließlich beliebiger Objekte, Beziehungen oder semantischer Bedeutungen. Die zentrale Herausforderung bei der Visual Dialogue-Aufgabe besteht daher darin, eine umfassendere und semantisch reichhaltigere Bildrepräsentation zu lernen, die adaptiv auf unterschiedliche Fragen mit fokussierten Aufmerksamkeitsmechanismen im Bild reagieren kann. In dieser Forschungsarbeit stellen wir ein neuartiges Modell vor, das ein Bild sowohl aus visueller als auch aus semantischer Perspektive darstellt. Konkret ermöglicht die visuelle Perspektive die Erfassung von Informationen auf der Ebene der Erscheinung, einschließlich Objekten und deren Beziehungen, während die semantische Perspektive dem Agenten hilft, hochwertige visuelle Semantik – von der Gesamtbildstruktur bis hin zu lokalen Regionen – zu verstehen. Darüber hinaus entwickeln wir auf Basis dieser mehrdimensionalen Bildmerkmale einen Feature-Selection-Framework, der in feinkörniger Hierarchie adaptiv informationsspezifische Merkmale für die jeweilige Frage erfasst. Die vorgeschlagene Methode erreicht Spitzenleistungen auf Standard-Datenbanken für Visual Dialogue. Wichtiger noch: Durch die Visualisierung der Gate-Werte können wir erkennen, welche Modalität – visuell oder semantisch – bei der Beantwortung der aktuellen Frage einen größeren Beitrag leistet. Dies liefert wertvolle Einblicke in das menschliche Wahrnehmungs- und Verarbeitungsverhalten im Kontext von Visual Dialogue.