HyperAIHyperAI

Command Palette

Search for a command to run...

Rendre l'histoire pertinente : Formation séquentielle d'avantage historique pour le dialogue visuel

Tianhao Yang Zheng-Jun Zha Hanwang Zhang

Résumé

Nous étudions la génération de réponses multirondes dans le dialogue visuel, où une réponse est générée en fonction d'un historique conversationnel ancré dans la vision. Étant donné un triplet composé d'une image, d'un historique de questions-réponses et d'une question actuelle, toutes les méthodes prédominantes suivent un paradigme de codage supervisé (c'est-à-dire, encodeur-décodage) : un encodeur multimodal encode le triplet en un vecteur de caractéristiques, qui est ensuite transmis au décodeur pour générer la réponse actuelle, supervisée par la vérité terrain.Cependant, cette supervision traditionnelle ne prend pas en compte l'impact d'un historique imparfait, ce qui contredit la nature conversationnelle du dialogue visuel et rend le codage plus enclin à apprendre des biais historiques plutôt que la raisonnement contextuel. Pour remédier à cela, inspirés par les gradients de politique acteur-critique dans l'apprentissage par renforcement, nous proposons un nouveau paradigme d'entraînement appelé Formation Séquentielle par Avantage Historique (HAST). Plus précisément, nous introduisons intentionnellement des réponses erronées dans l'historique pour obtenir un critique défavorable et examiner comment l'erreur historique influence le comportement futur du codec grâce à l'Avantage Historique — une quantité obtenue en soustrayant le critique défavorable de la récompense or (ground-truth) de l'historique.De plus, afin de rendre le codec plus sensible à l'historique, nous proposons un nouveau réseau d'attention appelé Réseau d'Attention Coordonnée Consciente de l'Histoire (HACAN), qui peut être efficacement entraîné en utilisant HAST. Les résultats expérimentaux sur trois benchmarks : VisDial v0.9 & v1.0 et GuessWhat?! montrent que la stratégie HAST proposée dépasse constamment les méthodes supervisées les plus avancées.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Rendre l'histoire pertinente : Formation séquentielle d'avantage historique pour le dialogue visuel | Articles | HyperAI