HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 4 mois

Apprentissage de l’incorporation de contextes multimodaux pour des agents conversationnels situés

Apprentissage de l’incorporation de contextes multimodaux pour des agents conversationnels situés

Résumé

Le projet Situated Interactive Multi-Modal Conversations (SIMMC) 2.0 vise à développer des assistants virtuels pour le shopping capables de traiter des entrées multimodales complexes, à savoir à la fois les caractéristiques visuelles des objets et les énoncés des utilisateurs. Il se compose de quatre sous-tâches : désambiguïsation multimodale (MM-Disamb), résolution de coreférance multimodale (MM-Coref), suivi d’état de dialogue multimodal (MM-DST) et récupération et génération de réponses. Alors que la plupart des systèmes de dialogue orientés vers une tâche traitent généralement chaque sous-tâche de manière indépendante, nous proposons un encodeur-décodage multimodal appris de manière conjointe, intégrant des données visuelles et effectuant les quatre sous-tâches simultanément, afin d’améliorer l’efficacité. Cette approche a remporté les premières places aux sous-tâches MM-Coref et récupération de réponse, et a été finaliste pour les deux autres sous-tâches, en utilisant un seul modèle unifié lors du 10e Défi de technologie des systèmes de dialogue (DSTC10), établissant ainsi un haut niveau de référence pour la nouvelle tâche des systèmes de dialogue orientés vers une tâche en environnement multimodal.

Benchmarks

BenchmarkMéthodologieMétriques
dialogue-state-tracking-on-simmc2-0BART-base
Act F1: 95.2
Slot F1: 82.0
dialogue-state-tracking-on-simmc2-0BART-large
Act F1: 96.3
Slot F1: 88.3
response-generation-on-simmc2-0BART-large
BLEU: 33.1

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Apprentissage de l’incorporation de contextes multimodaux pour des agents conversationnels situés | Articles de recherche | HyperAI