HyperAIHyperAI
il y a 7 jours

Apprentissage de l’incorporation de contextes multimodaux pour des agents conversationnels situés

{Kee-Eung Kim, Kangwook Lee, Haebin Shin, Youngjune Lee, Jinhyeon Kim, Yoonhyung Kim, Ran Han, Minho Park, Yunseon Choi, Oh Joon Kwon, Haeju Lee}
Apprentissage de l’incorporation de contextes multimodaux pour des agents conversationnels situés
Résumé

Le projet Situated Interactive Multi-Modal Conversations (SIMMC) 2.0 vise à développer des assistants virtuels pour le shopping capables de traiter des entrées multimodales complexes, à savoir à la fois les caractéristiques visuelles des objets et les énoncés des utilisateurs. Il se compose de quatre sous-tâches : désambiguïsation multimodale (MM-Disamb), résolution de coreférance multimodale (MM-Coref), suivi d’état de dialogue multimodal (MM-DST) et récupération et génération de réponses. Alors que la plupart des systèmes de dialogue orientés vers une tâche traitent généralement chaque sous-tâche de manière indépendante, nous proposons un encodeur-décodage multimodal appris de manière conjointe, intégrant des données visuelles et effectuant les quatre sous-tâches simultanément, afin d’améliorer l’efficacité. Cette approche a remporté les premières places aux sous-tâches MM-Coref et récupération de réponse, et a été finaliste pour les deux autres sous-tâches, en utilisant un seul modèle unifié lors du 10e Défi de technologie des systèmes de dialogue (DSTC10), établissant ainsi un haut niveau de référence pour la nouvelle tâche des systèmes de dialogue orientés vers une tâche en environnement multimodal.

Apprentissage de l’incorporation de contextes multimodaux pour des agents conversationnels situés | Articles de recherche récents | HyperAI