HyperAIHyperAI
il y a 2 mois

Apprentissage contrastif au niveau des jetons avec incitation consciente de la modalité pour la reconnaissance d'intention multimodale

Qianrui Zhou; Hua Xu; Hao Li; Hanlei Zhang; Xiaohan Zhang; Yifan Wang; Kai Gao
Apprentissage contrastif au niveau des jetons avec incitation consciente de la modalité pour la reconnaissance d'intention multimodale
Résumé

La reconnaissance d'intention multimodale vise à exploiter des modalités diverses telles que les expressions, les mouvements du corps et le ton de la parole pour comprendre l'intention de l'utilisateur, constituant une tâche cruciale pour la compréhension du langage et du comportement humains dans des scénarios multimodaux réels. Cependant, la majorité des méthodes existantes ignorent les corrélations potentielles entre différentes modalités et présentent des limitations dans l'apprentissage efficace de caractéristiques sémantiques à partir de modalités non verbales. Dans cet article, nous introduisons une méthode d'apprentissage par contraste au niveau des jetons avec un module de suggestion sensible aux modalités (TCL-MAP) pour relever ces défis. Pour établir un environnement sémantique multimodal optimal pour la modalité textuelle, nous avons développé un module de suggestion sensible aux modalités (MAP), qui aligne et fusionne efficacement les caractéristiques provenant des modalités textuelles, vidéo et audio grâce à un alignement basé sur la similarité et à un mécanisme d'attention intermodale. Sur la base de la suggestion sensible aux modalités et des étiquettes véritables, le cadre d'apprentissage par contraste au niveau des jetons proposé (TCL) construit des échantillons augmentés et utilise une perte NT-Xent sur le jeton d'étiquette. Plus précisément, le TCL tire parti des insights sémantiques optimaux issus des étiquettes d'intention pour guider en retour les processus d'apprentissage des autres modalités. Des expériences approfondies montrent que notre méthode réalise des améliorations remarquables par rapport aux méthodes de pointe actuelles. De plus, les analyses ablatives démontrent la supériorité de la suggestion sensible aux modalités sur la suggestion manuellement conçue, ce qui revêt une importance considérable pour l'apprentissage de suggestions multimodales. Les codes sont disponibles à l'adresse suivante : https://github.com/thuiar/TCL-MAP.

Apprentissage contrastif au niveau des jetons avec incitation consciente de la modalité pour la reconnaissance d'intention multimodale | Articles de recherche récents | HyperAI