HyperAIHyperAI

Command Palette

Search for a command to run...

Visuelle Dialoge mit strukturellen und teilweisen Beobachtungen begründen

Zilong Zheng∗ Wenguan Wang∗ Siyuan Qi∗ Song-Chun Zhu

Zusammenfassung

Wir schlagen ein neues Modell vor, um die Aufgabe des visuellen Dialogs zu bearbeiten, der komplexe Dialogstrukturen aufweist. Um eine angemessene Antwort basierend auf der aktuellen Frage und dem Dialogverlauf zu erhalten, sind die zugrunde liegenden semantischen Abhängigkeiten zwischen den Dialogentitäten entscheidend. In dieser Arbeit formalisieren wir diese Aufgabe explizit als Inferenz in einem graphischen Modell mit teilweise beobachteten Knoten und unbekannten Graphstrukturen (Relationen im Dialog). Die gegebenen Dialogentitäten werden als beobachtete Knoten betrachtet. Die Antwort auf eine gegebene Frage wird durch einen Knoten mit fehlendem Wert repräsentiert. Zunächst führen wir einen Erwartungswert-Maximierungsalgorithmus (Expectation Maximization) ein, um sowohl die zugrunde liegenden Dialogstrukturen als auch die fehlenden Knotenwerte (gewünschten Antworten) zu inferieren. Basierend darauf schlagen wir eine differenzierbare Lösung mit Graph Neural Networks (GNN) vor, die diesen Prozess approximiert. Experimentelle Ergebnisse auf den Datensätzen VisDial und VisDial-Q zeigen, dass unser Modell vergleichbare Methoden übertrifft. Es wurde außerdem festgestellt, dass unsere Methode die zugrunde liegende Dialogstruktur für bessere Dialogreasoning inferieren kann.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp