HyperAIHyperAI

Command Palette

Search for a command to run...

Visuelle Referenzauflösung unter Verwendung von Aufmerksamkeitsgedächtnis für visuelle Dialoge

Paul Hongsuck Seo Andreas Lehrmann Bohyung Han Leonid Sigal

Zusammenfassung

Visuelles Dialogen ist die Aufgabe, eine Reihe von miteinander verbundenen Fragen zu einer Eingabebild zu beantworten, und erfordert oft das Auflösen visueller Referenzen zwischen den Fragen. Dieses Problem unterscheidet sich von der visuellen Fragebeantwortung (VQA), die auf räumlicher Aufmerksamkeit (auch bekannt als visuelle Verankerung) beruht, die aus einem Bild-Frage-Paar geschätzt wird. Wir schlagen ein neues Aufmerksamkeitsmechanismus vor, der frühere visuelle Aufmerksamkeiten nutzt, um die aktuelle Referenz im Szenario des visuellen Dialogs aufzulösen. Das vorgeschlagene Modell verfügt über ein assoziatives Aufmerksamkeitsgedächtnis, das eine Folge von früheren (Aufmerksamkeit, Schlüssel)-Paaren speichert. Aus diesem Gedächtnis ruft das Modell die frühere Aufmerksamkeit ab, wobei es die Aktualität berücksichtigt, die für die aktuelle Frage am relevantesten ist, um potentiell mehrdeutige Referenzen aufzulösen. Das Modell fusioniert dann die abgerufene Aufmerksamkeit mit einer vorläufigen, um die endgültige Aufmerksamkeit für die aktuelle Frage zu erhalten; genauer gesagt verwenden wir dynamische Parameterprognose, um die beiden Aufmerksamkeiten unter Berücksichtigung der Frage zu kombinieren. Durch umfangreiche Experimente auf einem neuen synthetischen Datensatz für visuelle Dialoge zeigen wir, dass unser Modell in Situationen, in denen das Auflösen visueller Referenzen eine wichtige Rolle spielt, deutlich besser als der Stand der Technik (um etwa 16 Prozentpunkte) abschneidet. Darüber hinaus erreicht das vorgeschlagene Modell trotz wesentlich weniger Parametern als die Baseline-Modelle eine überlegene Leistung (Verbesserung um etwa 2 Prozentpunkte) im Visual Dialog-Datensatz.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp