HyperAIHyperAI
il y a 2 mois

Rendre l'histoire pertinente : Formation séquentielle d'avantage historique pour le dialogue visuel

Tianhao Yang; Zheng-Jun Zha; Hanwang Zhang
Rendre l'histoire pertinente : Formation séquentielle d'avantage historique pour le dialogue visuel
Résumé

Nous étudions la génération de réponses multirondes dans le dialogue visuel, où une réponse est générée en fonction d'un historique conversationnel ancré dans la vision. Étant donné un triplet composé d'une image, d'un historique de questions-réponses et d'une question actuelle, toutes les méthodes prédominantes suivent un paradigme de codage supervisé (c'est-à-dire, encodeur-décodage) : un encodeur multimodal encode le triplet en un vecteur de caractéristiques, qui est ensuite transmis au décodeur pour générer la réponse actuelle, supervisée par la vérité terrain.Cependant, cette supervision traditionnelle ne prend pas en compte l'impact d'un historique imparfait, ce qui contredit la nature conversationnelle du dialogue visuel et rend le codage plus enclin à apprendre des biais historiques plutôt que la raisonnement contextuel. Pour remédier à cela, inspirés par les gradients de politique acteur-critique dans l'apprentissage par renforcement, nous proposons un nouveau paradigme d'entraînement appelé Formation Séquentielle par Avantage Historique (HAST). Plus précisément, nous introduisons intentionnellement des réponses erronées dans l'historique pour obtenir un critique défavorable et examiner comment l'erreur historique influence le comportement futur du codec grâce à l'Avantage Historique — une quantité obtenue en soustrayant le critique défavorable de la récompense or (ground-truth) de l'historique.De plus, afin de rendre le codec plus sensible à l'historique, nous proposons un nouveau réseau d'attention appelé Réseau d'Attention Coordonnée Consciente de l'Histoire (HACAN), qui peut être efficacement entraîné en utilisant HAST. Les résultats expérimentaux sur trois benchmarks : VisDial v0.9 & v1.0 et GuessWhat?! montrent que la stratégie HAST proposée dépasse constamment les méthodes supervisées les plus avancées.

Rendre l'histoire pertinente : Formation séquentielle d'avantage historique pour le dialogue visuel | Articles de recherche récents | HyperAI