HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage et Alignement de la Représentation Multimodale Gramienne

Giordano Cicchetti; Eleonora Grassucci; Luigi Sigillo; Danilo Comminiello

Résumé

La perception humaine intègre plusieurs modalités, telles que la vision, l'audition et le langage, pour former une compréhension unifiée de la réalité environnante. Bien que les modèles multimodaux récents aient réalisé des progrès significatifs en alignant des paires de modalités par apprentissage contrastif, leurs solutions ne sont pas adaptées lorsqu'il s'agit d'échelonner à plusieurs modalités. Ces modèles alignent généralement chaque modalité sur une ancre désignée sans garantir l'alignement de toutes les modalités entre elles, ce qui entraîne des performances sous-optimales dans les tâches nécessitant une compréhension conjointe de plusieurs modalités. Dans cet article, nous repensons structurellement l'approche conventionnelle par paires pour l'apprentissage multimodal et nous présentons la nouvelle mesure d'alignement de représentation Gramienne (GRAM), qui surmonte les limitations mentionnées ci-dessus. GRAM apprend puis aligne directement nnn modalités dans l'espace multidimensionnel où se trouvent les plongements modaux en minimisant le volume gramien du parallélépipède kkk-dimensionnel engendré par les vecteurs modaux, assurant ainsi l'alignement géométrique simultané de toutes les modalités. GRAM peut remplacer la similarité cosinus dans toute méthode en aval, valable pour 2 à nnn modalités et offrant une alignment plus significative par rapport aux mesures de similarité précédentes. La nouvelle fonction de perte contrastive basée sur GRAM améliore l'alignement des modèles multimodaux dans l'espace de plongement multidimensionnel, conduisant à de nouvelles performances record dans les tâches en aval telles que la recherche vidéo-audio-texte et la classification audio-vidéo. La page du projet, le code et les modèles pré-entraînés sont disponibles à l'adresse suivante : https://ispamm.github.io/GRAM/.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp