il y a 19 jours

Fusion multimodale dynamique

Zihui Xue, Radu Marculescu

Résumé

L’apprentissage multimodal profond a connu des progrès significatifs ces dernières années. Toutefois, les approches actuelles de fusion sont de nature statique, c’est-à-dire qu’elles traitent et fusionnent les entrées multimodales avec un calcul identique, sans tenir compte des exigences computationnelles variées inhérentes aux différentes données multimodales. Dans ce travail, nous proposons une nouvelle approche, appelée fusion multimodale dynamique (DynMM), qui fusionne de manière adaptative les données multimodales et génère des chemins de propagation dépendants des données lors de l’inférence. Pour ce faire, nous introduisons une fonction de commutateur (gating function) capable de prendre des décisions au niveau des modalités ou au niveau de la fusion en temps réel, basées sur les caractéristiques multimodales, ainsi qu’une fonction de perte consciente des ressources, qui encourage l’efficacité computationnelle. Les résultats obtenus sur diverses tâches multimodales démontrent l’efficacité et la large applicabilité de notre approche. Par exemple, DynMM permet de réduire les coûts computationnels de 46,5 % avec une perte d’accuracy négligeable (analyse de sentiment sur CMU-MOSEI) et d’améliorer les performances de segmentation tout en réalisant une économie de calcul supérieure à 21 % (segmentation sémantique sur NYU Depth V2), comparé aux approches de fusion statiques. Nous pensons que cette approche ouvre une nouvelle voie vers la conception de réseaux multimodaux dynamiques, avec des applications étendues à un large éventail de tâches multimodales.