HyperAIHyperAI
vor 2 Monaten

Geschichte relevant machen: Historisch-sequenzielle Trainingsmethoden für visuelle Dialoge

Tianhao Yang; Zheng-Jun Zha; Hanwang Zhang
Geschichte relevant machen: Historisch-sequenzielle Trainingsmethoden für visuelle Dialoge
Abstract

Wir untersuchen die mehrstufige Antwortgenerierung im visuellen Dialog, bei der eine Antwort auf Grundlage einer visuell verankerten Konversationsgeschichte generiert wird. Gegeben ist ein Tripel: ein Bild, eine Q&A-Geschichte und die aktuelle Frage. Alle gängigen Methoden folgen einem Codec-Verfahren (d.h., Encoder-Decoder) im Rahmen des überwachten Lernens: Ein multimodaler Encoder kodiert das Tripel in einen Merkmalsvektor, der dann vom Decoder zur Generierung der aktuellen Antwort verwendet wird und durch die Ground-Truth überwacht wird. Allerdings berücksichtigt dieses konventionelle überwachte Lernen nicht den Einfluss unvollkommener Geschichte, was gegen die konversationelle Natur des visuellen Dialogs verstößt und dazu führt, dass der Codec eher historische Verzerrungen als kontextbezogenes Denken lernt. Aus diesem Grund schlagen wir, inspiriert von den Schauspieler-Kritiker-Politikgradienten im Reinforcement Learning, ein neues Trainingsparadigma vor, das History Advantage Sequence Training (HAST) genannt wird. Insbesondere fügen wir absichtlich falsche Antworten in die Geschichte ein, um einen negativen Kritiker zu erhalten, und untersuchen, wie sich historische Fehler auf das zukünftige Verhalten des Codecs auswirken – gemessen durch den History Advantage, eine Größe, die durch Subtraktion des negativen Kritikers vom Gold-Reward der Ground-Truth-Geschichte ermittelt wird. Darüber hinaus schlagen wir zur Steigerung der Sensibilität des Codecs gegenüber der Geschichte ein neuartiges Aufmerksamkeitsnetzwerk vor, das History-Aware Co-Attention Network (HACAN), welches effektiv mit HAST trainiert werden kann. Experimentelle Ergebnisse auf drei Benchmarks – VisDial v0.9 & v1.0 sowie GuessWhat?! – zeigen, dass das vorgeschlagene HAST-Verfahren konsistent bessere Ergebnisse liefert als die besten bisher bekannten überwachten Verfahren.

Geschichte relevant machen: Historisch-sequenzielle Trainingsmethoden für visuelle Dialoge | Neueste Forschungsarbeiten | HyperAI