il y a 3 mois

Apprentissage d’incorporation de contextes multimodaux pour des agents conversationnels situés

{Anonymous}

Résumé

Le défi des conversations interactives multimodales situées (SIMMC) 2.0 vise à concevoir des assistants virtuels d’achat capables de traiter des entrées multimodales complexes, à savoir à la fois les apparences visuelles des objets et les énoncés des utilisateurs. Il se compose de quatre sous-tâches : désambiguïsation multimodale (MM-Disamb), résolution de coreférance multimodale (MM-Coref), suivi d’état de dialogue multimodal (MM-DST) et récupération et génération de réponse. Alors que la plupart des systèmes de dialogue orientés vers une tâche traitent généralement chaque sous-tâche de manière indépendante, nous proposons un encodeur-décodage multimodal appris de manière conjointe, intégrant les données visuelles et effectuant les quatre sous-tâches simultanément, afin d’améliorer l’efficacité. Cette approche a remporté les deux sous-tâches MM-Coref et récupération de réponse, et a été désignée finaliste pour les deux autres sous-tâches, en utilisant un seul modèle unifié lors du 10e Défi de technologie des systèmes de dialogue (DSTC10), établissant ainsi un haut niveau de référence pour cette nouvelle tâche de systèmes de dialogue multimodaux orientés vers une tâche.

Benchmarks

Benchmark	Méthodologie	Métriques
response-generation-on-simmc2-0	BART-base	BLEU: 29.4

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA

GPU prêts à utiliser

Meilleurs prix

Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp