HyperAIHyperAI

Command Palette

Search for a command to run...

Fusion multimodale dynamique

Zihui Xue Radu Marculescu

Résumé

L’apprentissage multimodal profond a connu des progrès significatifs ces dernières années. Toutefois, les approches actuelles de fusion sont de nature statique, c’est-à-dire qu’elles traitent et fusionnent les entrées multimodales avec un calcul identique, sans tenir compte des exigences computationnelles variées inhérentes aux différentes données multimodales. Dans ce travail, nous proposons une nouvelle approche, appelée fusion multimodale dynamique (DynMM), qui fusionne de manière adaptative les données multimodales et génère des chemins de propagation dépendants des données lors de l’inférence. Pour ce faire, nous introduisons une fonction de commutateur (gating function) capable de prendre des décisions au niveau des modalités ou au niveau de la fusion en temps réel, basées sur les caractéristiques multimodales, ainsi qu’une fonction de perte consciente des ressources, qui encourage l’efficacité computationnelle. Les résultats obtenus sur diverses tâches multimodales démontrent l’efficacité et la large applicabilité de notre approche. Par exemple, DynMM permet de réduire les coûts computationnels de 46,5 % avec une perte d’accuracy négligeable (analyse de sentiment sur CMU-MOSEI) et d’améliorer les performances de segmentation tout en réalisant une économie de calcul supérieure à 21 % (segmentation sémantique sur NYU Depth V2), comparé aux approches de fusion statiques. Nous pensons que cette approche ouvre une nouvelle voie vers la conception de réseaux multimodaux dynamiques, avec des applications étendues à un large éventail de tâches multimodales.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Fusion multimodale dynamique | Articles | HyperAI