HyperAI

Résumé

Le projet Situated Interactive Multi-Modal Conversations (SIMMC) 2.0 vise à développer des assistants virtuels pour le shopping capables de traiter des entrées multimodales complexes, à savoir à la fois les caractéristiques visuelles des objets et les énoncés des utilisateurs. Il se compose de quatre sous-tâches : désambiguïsation multimodale (MM-Disamb), résolution de coreférance multimodale (MM-Coref), suivi d’état de dialogue multimodal (MM-DST) et récupération et génération de réponses. Alors que la plupart des systèmes de dialogue orientés vers une tâche traitent généralement chaque sous-tâche de manière indépendante, nous proposons un encodeur-décodage multimodal appris de manière conjointe, intégrant des données visuelles et effectuant les quatre sous-tâches simultanément, afin d’améliorer l’efficacité. Cette approche a remporté les premières places aux sous-tâches MM-Coref et récupération de réponse, et a été finaliste pour les deux autres sous-tâches, en utilisant un seul modèle unifié lors du 10e Défi de technologie des systèmes de dialogue (DSTC10), établissant ainsi un haut niveau de référence pour la nouvelle tâche des systèmes de dialogue orientés vers une tâche en environnement multimodal.

Benchmark	Méthodologie	Métriques
dialogue-state-tracking-on-simmc2-0	BART-base	Act F1: 95.2 Slot F1: 82.0
dialogue-state-tracking-on-simmc2-0	BART-large	Act F1: 96.3 Slot F1: 88.3
response-generation-on-simmc2-0	BART-large	BLEU: 33.1

Benchmark

Méthodologie

Métriques

dialogue-state-tracking-on-simmc2-0

BART-base

Act F1: 95.2

Slot F1: 82.0

dialogue-state-tracking-on-simmc2-0

BART-large

Act F1: 96.3

Slot F1: 88.3

response-generation-on-simmc2-0

BART-large

BLEU: 33.1

Apprentissage de l’incorporation de contextes multimodaux pour des agents conversationnels situés

{Kee-Eung Kim Kangwook Lee Haebin Shin Youngjune Lee Jinhyeon Kim Yoonhyung Kim Ran Han Minho Park Yunseon Choi Oh Joon Kwon

Résumé

Benchmarks

Construire l'IA avec l'IA

Hyper Newsletters

Command Palette

Apprentissage de l’incorporation de contextes multimodaux pour des agents conversationnels situés

{Kee-Eung Kim Kangwook Lee Haebin Shin Youngjune Lee Jinhyeon Kim Yoonhyung Kim Ran Han Minho Park Yunseon Choi Oh Joon Kwon1 more

Résumé

Benchmarks

Construire l'IA avec l'IA

Hyper Newsletters

{Kee-Eung Kim Kangwook Lee Haebin Shin Youngjune Lee Jinhyeon Kim Yoonhyung Kim Ran Han Minho Park Yunseon Choi Oh Joon Kwon