HyperAIHyperAI

Command Palette

Search for a command to run...

Rekursive visuelle Aufmerksamkeit in visuellen Dialogen

Yulei Niu Hanwang Zhang Manli Zhang Jianhong Zhang Zhiwu Lu Ji-Rong Wen

Zusammenfassung

Visuelles Dialog ist eine anspruchsvolle Aufgabe im Bereich Vision-Sprache, die von einem Agenten erfordert, mehrere Runden von Fragen zu einem Bild zu beantworten. Dabei müssen in der Regel zwei Hauptprobleme gelöst werden: (1) Wie kann man visuell begründete Fragen beantworten, was die zentrale Herausforderung bei der visuellen Fragebeantwortung (VQA) darstellt; (2) Wie kann man die kovalenz zwischen Fragen und dem Dialogverlauf inferieren. Ein Beispiel für visuelle Kovalenz ist: Pronomen (z.B., „sie“) in einer Frage (z.B., „Sind sie an oder aus?“) werden mit Nomen (z.B., „Lampen“) verknüpft, die im Dialogverlauf (z.B., „Wie viele Lampen gibt es?“) und den im Bild verankerten Objekten auftauchen. In dieser Arbeit schlagen wir ein neues Aufmerksamkeitsmechanismus vor, den wir Rekursive Visuelle Aufmerksamkeit (RvA) nennen. Genauer gesagt durchsucht unser Dialogagent den Dialogverlauf, bis er genügend Vertrauen in die Auflösung der visuellen Kovalenz hat, und verfeinert die visuelle Aufmerksamkeit rekursiv. Die quantitativen und qualitativen Experimentsergebnisse auf den umfangreichen VisDial v0.9- und v1.0-Datensätzen zeigen, dass das vorgeschlagene RvA nicht nur die besten bisher bekannten Methoden übertrifft, sondern auch vernünftige Rekursion und interpretierbare Aufmerksamkeitskarten ohne zusätzliche Annotationen erreicht. Der Code ist unter \url{https://github.com/yuleiniu/rva} verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Rekursive visuelle Aufmerksamkeit in visuellen Dialogen | Paper | HyperAI