HyperAIHyperAI

Command Palette

Search for a command to run...

Multi-View Attention Network für visuelles Dialogsystem

Sungjin Park Taesun Whang Yeochan Yoon Heuiseok Lim

Zusammenfassung

Visuelle Dialoge stellen eine anspruchsvolle Aufgabe im Bereich der multimodalen KI dar, bei der eine Reihe von Fragen beantwortet werden müssen, die an ein gegebenes Bild gebunden sind. Um diese Aufgabe zu bewältigen, ist ein tiefes Verständnis verschiedener multimodaler Eingaben (z. B. Frage, Dialogverlauf und Bild) erforderlich. Insbesondere muss ein Agent in der Lage sein, 1) die semantische Intention einer Frage zu erkennen und 2) relevante textuelle und visuelle Inhalte im Hinblick auf die Frage zwischen heterogenen Modaltypen zu verknüpfen. In diesem Paper stellen wir das Multi-View Attention Network (MVAN) vor, das mehrere Perspektiven auf die heterogenen Eingaben mittels Aufmerksamkeitsmechanismen nutzt. MVAN erfasst effektiv fragebezogene Informationen aus dem Dialogverlauf durch zwei ergänzende Module (nämlich Topic Aggregation und Context Matching) und erzeugt multimodale Repräsentationen durch sequenzielle Ausrichtungsprozesse (Modality Alignment). Experimentelle Ergebnisse auf dem VisDial v1.0-Datensatz belegen die Wirksamkeit unseres vorgeschlagenen Modells, das gegenüber allen Bewertungsmetriken die vorherigen State-of-the-Art-Methoden übertrifft.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp