HyperAIHyperAI
il y a 9 jours

Mirasol3B : un modèle autoregressif multimodal pour des modalités temporellement alignées et contextuelles

AJ Piergiovanni, Isaac Noble, Dahun Kim, Michael S. Ryoo, Victor Gomes, Anelia Angelova
Mirasol3B : un modèle autoregressif multimodal pour des modalités temporellement alignées et contextuelles
Résumé

L’un des principaux défis de l’apprentissage multimodal réside dans la nécessité de combiner des modalités hétérogènes (par exemple, vidéo, audio, texte). Par exemple, les données vidéo et audio sont acquises à des taux bien plus élevés que le texte, et sont approximativement alignées dans le temps. En revanche, elles ne sont généralement pas synchronisées avec le texte, qui apparaît souvent sous forme de contexte global, tel qu’un titre ou une description. De plus, les entrées vidéo et audio sont de volumes beaucoup plus importants et augmentent avec la durée de la vidéo, ce qui exige naturellement davantage de ressources computationnelles dédiées à ces modalités, tout en rendant la modélisation des dépendances à longue portée plus difficile.Dans cette étude, nous décomposons la modélisation multimodale en séparant les différentes modalités en des modèles autoregressifs distincts et spécialisés, adaptés aux caractéristiques propres de chaque modalité. Nous proposons un modèle multimodal, appelé Mirasol3B, composé d’un composant autoregressif dédié aux modalités synchronisées dans le temps (audio et vidéo), et d’un autre composant autoregressif pour les modalités contextuelles, qui ne sont pas nécessairement alignées temporellement mais restent séquentielles. Pour traiter les séquences longues des entrées vidéo-audio, nous proposons de partitionner ces séquences en extraits consécutifs (snippets), puis de traiter leurs représentations de manière autoregressive. À cette fin, nous introduisons un mécanisme appelé Combiner, qui modélise conjointement les informations audio et vidéo au sein d’un même intervalle temporel. Le Combiner apprend à extraire des caractéristiques audio et vidéo à partir de signaux bruts spatio-temporels, puis à fusionner ces caractéristiques afin de produire des représentations compactes mais expressives par snippet.Notre approche atteint l’état de l’art sur des benchmarks multimodaux bien établis, surpassant des modèles bien plus volumineux. Elle répond efficacement à la forte demande computationnelle des entrées médiatiques en apprenant des représentations compactes, en contrôlant la longueur des séquences des représentations audio-videos, et en modélisant leurs dépendances temporelles.