Probabilistisches Rahmenwerk zur Lösung von Visual Dialog

In diesem Artikel stellen wir einen probabilistischen Rahmen für die Lösung der Aufgabe „Visual Dialog“ vor. Die Bewältigung dieser Aufgabe erfordert die Fähigkeit, visuelle Modalität, Sprachmodalität sowie allgemeines Wissen zu verstehen und zu verarbeiten, um angemessene Antworten zu generieren. Verschiedene Architekturen wurden vorgeschlagen, um diese Aufgabe durch Varianten multimodaler tiefen Lernverfahren zu lösen, die visuelle und sprachliche Darstellungen kombinieren. Wir halten jedoch für entscheidend, die Quellen der Unsicherheit bei der Lösung dieser Aufgabe zu verstehen und zu analysieren. Unser Ansatz ermöglicht die Schätzung von Unsicherheit und unterstützt zudem die Vielfalt der Antwortgenerierung. Die vorgeschlagene Methode basiert auf einem probabilistischen Darstellungsmodul, das uns Darstellungen für Bild, Frage und Gesprächsverlauf liefert, einem Modul, das sicherstellt, dass diverse latente Darstellungen für mögliche Antworten unter Verwendung der probabilistischen Darstellungen erzeugt werden, sowie einem Modul zur Darstellung von Unsicherheit, das die Antwort auswählt, die die Unsicherheit minimiert. Wir evaluieren das Modell umfassend durch eine detaillierte Ablationsanalyse, einen Vergleich mit Stand der Technik sowie durch Visualisierungen der Unsicherheit, die das Verständnis des Verfahrens unterstützen. Mit dem vorgeschlagenen probabilistischen Rahmen erreichen wir somit ein verbessertes Visual-Dialog-System, das zudem besser nachvollziehbar ist.