CREMA : Raisonnement vidéo-langage généralisable et efficace grâce à la fusion modulaire multimodale

Malgré les progrès remarquables réalisés récemment dans les approches multimodales de raisonnement, celles-ci restent limitées en termes de flexibilité et d’efficacité, car ces modèles traitent généralement un nombre restreint d’entrées modales fixes et nécessitent la mise à jour de nombreuses paramètres. Ce papier aborde ces défis critiques et propose CREMA, un cadre modulaire, généralisable, hautement efficace pour la fusion de modalités, capable d’intégrer n’importe quelle nouvelle modality afin d’améliorer le raisonnement vidéo. Nous enrichissons d’abord plusieurs modalités informatives (telles que le flux optique, les nuages de points 3D, l’audio, les cartes thermiques et les cartes de toucher) à partir de vidéos données, sans annotation humaine supplémentaire, en exploitant des capteurs ou des modèles pré-entraînés existants. Ensuite, nous introduisons un transformateur d’interrogation doté de modules à faible coût paramétrique associés à chaque modality accessible. Ce transformateur projette les caractéristiques issues de différentes modalités dans l’espace d’embedding des tokens du modèle linguistique à grande échelle (LLM), permettant ainsi au modèle d’intégrer différents types de données pour générer des réponses. Par ailleurs, nous proposons une nouvelle architecture de fusion multimodale progressive, soutenue par un module de fusion léger et une stratégie d’apprentissage séquentiel par modalité. Cette approche permet de compresser efficacement l’information provenant de diverses modalités auxiliaires, tout en préservant l’efficacité computationnelle du LLM et en améliorant les performances. Nous validons notre méthode sur 7 tâches de raisonnement vidéo-langage assistées par des modalités diverses, incluant des tâches classiques telles que le VideoQA, ainsi que des variantes multimodales comme Video-Audio/3D/Touch/Thermal QA. Nos résultats démontrent une performance supérieure ou équivalente par rapport à des modèles LLM multimodaux puissants, notamment OneLLM, BLIP-2 et SeViLA, tout en réduisant de plus de 90 % le nombre de paramètres entraînables. Nous fournissons également une analyse approfondie de CREMA, incluant l’impact de chaque modality sur les domaines de raisonnement, la conception du module de fusion, ainsi que des visualisations exemplaires.