Apprentissage d’incorporation de contextes multimodaux pour des agents conversationnels situés

Le défi des conversations interactives multimodales situées (SIMMC) 2.0 vise à concevoir des assistants virtuels d’achat capables de traiter des entrées multimodales complexes, à savoir à la fois les apparences visuelles des objets et les énoncés des utilisateurs. Il se compose de quatre sous-tâches : désambiguïsation multimodale (MM-Disamb), résolution de coreférance multimodale (MM-Coref), suivi d’état de dialogue multimodal (MM-DST) et récupération et génération de réponse. Alors que la plupart des systèmes de dialogue orientés vers une tâche traitent généralement chaque sous-tâche de manière indépendante, nous proposons un encodeur-décodage multimodal appris de manière conjointe, intégrant les données visuelles et effectuant les quatre sous-tâches simultanément, afin d’améliorer l’efficacité. Cette approche a remporté les deux sous-tâches MM-Coref et récupération de réponse, et a été désignée finaliste pour les deux autres sous-tâches, en utilisant un seul modèle unifié lors du 10e Défi de technologie des systèmes de dialogue (DSTC10), établissant ainsi un haut niveau de référence pour cette nouvelle tâche de systèmes de dialogue multimodaux orientés vers une tâche.