HyperAIHyperAI

Command Palette

Search for a command to run...

Duale Aufmerksamkeitsnetzwerke für die visuelle Referenzauflösung in visuellen Dialogen

Gi-Cheon Kang; Jaeseo Lim; Byoung-Tak Zhang

Zusammenfassung

Visuelles Dialog (VisDial) ist eine Aufgabe, bei der ein KI-Agent eine Reihe von Fragen beantworten muss, die auf einem Bild basieren. Im Gegensatz zu visuellen Fragebeantwortungssystemen (VQA) sollten die Fragen in der Lage sein, einen zeitlichen Kontext aus einem Dialogverlauf zu erfassen und visuell begründete Informationen zu nutzen. Ein Problem, das diese Herausforderungen beinhaltet, wird als visuelle Referenzauflösung (visual reference resolution) bezeichnet. Es erfordert vom Agenten, dass er unspezifische Referenzen in einer gegebenen Frage auflöst und diese Referenzen im gegebenen Bild findet. In dieser Arbeit schlagen wir Dual Attention Networks (DAN) für die visuelle Referenzauflösung vor. DAN besteht aus zwei Arten von Aufmerksamkeitsnetzwerken: REFER und FIND. Insbesondere lernt das REFER-Modul latente Beziehungen zwischen einer gegebenen Frage und einem Dialogverlauf durch Anwendung eines Selbst-Aufmerksamkeitsmechanismus. Das FIND-Modul nimmt Bildmerkmale und referenzbewusste Darstellungen (d.h., die Ausgabe des REFER-Moduls) als Eingabe entgegen und führt eine visuelle Begründung durch den bottom-up Aufmerksamkeitsmechanismus durch. Wir evaluieren unser Modell qualitativ und quantitativ anhand der Datensätze VisDial v1.0 und v0.9, wobei sich zeigt, dass DAN den bisherigen Stand der Technik um einen signifikanten Marginalwert übertrifft.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Duale Aufmerksamkeitsnetzwerke für die visuelle Referenzauflösung in visuellen Dialogen | Paper | HyperAI