Réseaux de Transformers Multimodaux pour les Systèmes de Dialogue Basés sur la Vidéo de bout en bout

Le développement de systèmes de dialogue basés sur des vidéos (Video-Grounded Dialogue Systems, VGDS), où un dialogue est mené en fonction des aspects visuels et audio d'une vidéo donnée, présente des défis considérables par rapport aux systèmes de dialogue traditionnels basés sur des images ou du texte. Cela est dû à deux facteurs principaux : (1) l'espace de caractéristiques des vidéos s'étend sur plusieurs images, ce qui rend difficile l'obtention d'informations sémantiques ; et (2) un agent de dialogue doit percevoir et traiter les informations provenant de différentes modalités (audio, vidéo, légendes, etc.) pour obtenir une compréhension complète. La plupart des travaux existants reposent sur des réseaux de neurones récurrents (RNN) et des architectures séquence-à-séquence, qui ne sont pas très efficaces pour capturer les dépendances complexes à long terme (comme celles présentes dans les vidéos). Pour surmonter ces difficultés, nous proposons les Réseaux Transformateurs Multimodaux (Multimodal Transformer Networks, MTN) afin d'encoder les vidéos et d'intégrer les informations provenant de différentes modalités. Nous proposons également une attention sensible aux requêtes via un auto-encodeur pour extraire des caractéristiques sensibles aux requêtes à partir des modalités non textuelles. Nous avons développé une procédure d'entraînement simulant le décodage au niveau des tokens pour améliorer la qualité des réponses générées lors de l'inférence. Nous obtenons des performances de pointe sur le Défi Technologique 7 en Systèmes de Dialogue (Dialogue System Technology Challenge 7, DSTC7). Notre modèle se généralise également à une autre tâche de dialogue visuel multimodal et obtient des résultats prometteurs. Nous avons mis en œuvre nos modèles en utilisant PyTorch et le code source est disponible à l'adresse suivante : https://github.com/henryhungle/MTN.