HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage d’incorporation de contextes multimodaux pour des agents conversationnels situés

Anonymous

Résumé

Le défi des conversations interactives multimodales situées (SIMMC) 2.0 vise à concevoir des assistants virtuels d’achat capables de traiter des entrées multimodales complexes, à savoir à la fois les apparences visuelles des objets et les énoncés des utilisateurs. Il se compose de quatre sous-tâches : désambiguïsation multimodale (MM-Disamb), résolution de coreférance multimodale (MM-Coref), suivi d’état de dialogue multimodal (MM-DST) et récupération et génération de réponse. Alors que la plupart des systèmes de dialogue orientés vers une tâche traitent généralement chaque sous-tâche de manière indépendante, nous proposons un encodeur-décodage multimodal appris de manière conjointe, intégrant les données visuelles et effectuant les quatre sous-tâches simultanément, afin d’améliorer l’efficacité. Cette approche a remporté les deux sous-tâches MM-Coref et récupération de réponse, et a été désignée finaliste pour les deux autres sous-tâches, en utilisant un seul modèle unifié lors du 10e Défi de technologie des systèmes de dialogue (DSTC10), établissant ainsi un haut niveau de référence pour cette nouvelle tâche de systèmes de dialogue multimodaux orientés vers une tâche.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp