HyperAIHyperAI

Command Palette

Search for a command to run...

Geschichte relevant machen: Historisch-sequenzielle Trainingsmethoden für visuelle Dialoge

Tianhao Yang Zheng-Jun Zha Hanwang Zhang

Zusammenfassung

Wir untersuchen die mehrstufige Antwortgenerierung im visuellen Dialog, bei der eine Antwort auf Grundlage einer visuell verankerten Konversationsgeschichte generiert wird. Gegeben ist ein Tripel: ein Bild, eine Q&A-Geschichte und die aktuelle Frage. Alle gängigen Methoden folgen einem Codec-Verfahren (d.h., Encoder-Decoder) im Rahmen des überwachten Lernens: Ein multimodaler Encoder kodiert das Tripel in einen Merkmalsvektor, der dann vom Decoder zur Generierung der aktuellen Antwort verwendet wird und durch die Ground-Truth überwacht wird. Allerdings berücksichtigt dieses konventionelle überwachte Lernen nicht den Einfluss unvollkommener Geschichte, was gegen die konversationelle Natur des visuellen Dialogs verstößt und dazu führt, dass der Codec eher historische Verzerrungen als kontextbezogenes Denken lernt. Aus diesem Grund schlagen wir, inspiriert von den Schauspieler-Kritiker-Politikgradienten im Reinforcement Learning, ein neues Trainingsparadigma vor, das History Advantage Sequence Training (HAST) genannt wird. Insbesondere fügen wir absichtlich falsche Antworten in die Geschichte ein, um einen negativen Kritiker zu erhalten, und untersuchen, wie sich historische Fehler auf das zukünftige Verhalten des Codecs auswirken – gemessen durch den History Advantage, eine Größe, die durch Subtraktion des negativen Kritikers vom Gold-Reward der Ground-Truth-Geschichte ermittelt wird. Darüber hinaus schlagen wir zur Steigerung der Sensibilität des Codecs gegenüber der Geschichte ein neuartiges Aufmerksamkeitsnetzwerk vor, das History-Aware Co-Attention Network (HACAN), welches effektiv mit HAST trainiert werden kann. Experimentelle Ergebnisse auf drei Benchmarks – VisDial v0.9 & v1.0 sowie GuessWhat?! – zeigen, dass das vorgeschlagene HAST-Verfahren konsistent bessere Ergebnisse liefert als die besten bisher bekannten überwachten Verfahren.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Geschichte relevant machen: Historisch-sequenzielle Trainingsmethoden für visuelle Dialoge | Paper | HyperAI