vor 7 Monaten

Zusammenfassung

Wir untersuchen die mehrstufige Antwortgenerierung im visuellen Dialog, bei der eine Antwort auf Grundlage einer visuell verankerten Konversationsgeschichte generiert wird. Gegeben ist ein Tripel: ein Bild, eine Q&A-Geschichte und die aktuelle Frage. Alle gängigen Methoden folgen einem Codec-Verfahren (d.h., Encoder-Decoder) im Rahmen des überwachten Lernens: Ein multimodaler Encoder kodiert das Tripel in einen Merkmalsvektor, der dann vom Decoder zur Generierung der aktuellen Antwort verwendet wird und durch die Ground-Truth überwacht wird. Allerdings berücksichtigt dieses konventionelle überwachte Lernen nicht den Einfluss unvollkommener Geschichte, was gegen die konversationelle Natur des visuellen Dialogs verstößt und dazu führt, dass der Codec eher historische Verzerrungen als kontextbezogenes Denken lernt. Aus diesem Grund schlagen wir, inspiriert von den Schauspieler-Kritiker-Politikgradienten im Reinforcement Learning, ein neues Trainingsparadigma vor, das History Advantage Sequence Training (HAST) genannt wird. Insbesondere fügen wir absichtlich falsche Antworten in die Geschichte ein, um einen negativen Kritiker zu erhalten, und untersuchen, wie sich historische Fehler auf das zukünftige Verhalten des Codecs auswirken – gemessen durch den History Advantage, eine Größe, die durch Subtraktion des negativen Kritikers vom Gold-Reward der Ground-Truth-Geschichte ermittelt wird. Darüber hinaus schlagen wir zur Steigerung der Sensibilität des Codecs gegenüber der Geschichte ein neuartiges Aufmerksamkeitsnetzwerk vor, das History-Aware Co-Attention Network (HACAN), welches effektiv mit HAST trainiert werden kann. Experimentelle Ergebnisse auf drei Benchmarks – VisDial v0.9 & v1.0 sowie GuessWhat?! – zeigen, dass das vorgeschlagene HAST-Verfahren konsistent bessere Ergebnisse liefert als die besten bisher bekannten überwachten Verfahren.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 7 Monaten

Visuelle Fragebeantwortung

Tianhao Yang Zheng-Jun Zha Hanwang Zhang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 7 Monaten

Visuelle Fragebeantwortung

Tianhao Yang Zheng-Jun Zha Hanwang Zhang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Geschichte relevant machen: Historisch-sequenzielle Trainingsmethoden für visuelle Dialoge

Tianhao Yang Zheng-Jun Zha Hanwang Zhang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Geschichte relevant machen: Historisch-sequenzielle Trainingsmethoden für visuelle Dialoge

Tianhao Yang Zheng-Jun Zha Hanwang Zhang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Geschichte relevant machen: Historisch-sequenzielle Trainingsmethoden für visuelle Dialoge

Tianhao Yang Zheng-Jun Zha Hanwang Zhang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters