HyperAIHyperAI
il y a 2 mois

Apprentissage et Alignement de la Représentation Multimodale Gramienne

Giordano Cicchetti; Eleonora Grassucci; Luigi Sigillo; Danilo Comminiello
Apprentissage et Alignement de la Représentation Multimodale Gramienne
Résumé

La perception humaine intègre plusieurs modalités, telles que la vision, l'audition et le langage, pour former une compréhension unifiée de la réalité environnante. Bien que les modèles multimodaux récents aient réalisé des progrès significatifs en alignant des paires de modalités par apprentissage contrastif, leurs solutions ne sont pas adaptées lorsqu'il s'agit d'échelonner à plusieurs modalités. Ces modèles alignent généralement chaque modalité sur une ancre désignée sans garantir l'alignement de toutes les modalités entre elles, ce qui entraîne des performances sous-optimales dans les tâches nécessitant une compréhension conjointe de plusieurs modalités. Dans cet article, nous repensons structurellement l'approche conventionnelle par paires pour l'apprentissage multimodal et nous présentons la nouvelle mesure d'alignement de représentation Gramienne (GRAM), qui surmonte les limitations mentionnées ci-dessus. GRAM apprend puis aligne directement $n$ modalités dans l'espace multidimensionnel où se trouvent les plongements modaux en minimisant le volume gramien du parallélépipède $k$-dimensionnel engendré par les vecteurs modaux, assurant ainsi l'alignement géométrique simultané de toutes les modalités. GRAM peut remplacer la similarité cosinus dans toute méthode en aval, valable pour 2 à $n$ modalités et offrant une alignment plus significative par rapport aux mesures de similarité précédentes. La nouvelle fonction de perte contrastive basée sur GRAM améliore l'alignement des modèles multimodaux dans l'espace de plongement multidimensionnel, conduisant à de nouvelles performances record dans les tâches en aval telles que la recherche vidéo-audio-texte et la classification audio-vidéo. La page du projet, le code et les modèles pré-entraînés sont disponibles à l'adresse suivante : https://ispamm.github.io/GRAM/.