vor 9 Tagen

Mirasol3B: Ein multimodales autoregressives Modell für zeitlich abgestimmte und kontextuelle Modalitäten

AJ Piergiovanni, Isaac Noble, Dahun Kim, Michael S. Ryoo, Victor Gomes, Anelia Angelova

Abstract

Eine der zentralen Herausforderungen des multimodalen Lernens besteht darin, heterogene Modalitäten (z. B. Video, Audio, Text) zu kombinieren. Beispielsweise werden Video- und Audiodaten mit deutlich höherer Frequenz erfasst als Text und sind grob zeitlich synchronisiert. Sie sind jedoch oft nicht mit dem Text synchron, der als globaler Kontext – etwa ein Titel oder eine Beschreibung – bereitgestellt wird. Zudem weisen Video- und Audiodaten eine viel größere Datenmenge auf und wachsen mit der Länge des Videos, was naturgemäß einen höheren Rechenaufwand für diese Modalitäten erfordert und die Modellierung langfristiger Abhängigkeiten erschwert.In diesem Beitrag trennen wir die multimodale Modellierung in separate, spezifisch ausgerichtete autoregressive Modelle auf, die die Eingaben gemäß den jeweiligen Eigenschaften der Modalitäten verarbeiten. Wir stellen ein multimodales Modell namens Mirasol3B vor, das aus zwei autoregressiven Komponenten besteht: einer für die zeitlich synchronisierten Modalitäten (Audio und Video) und einer für die kontextuellen Modalitäten, die nicht unbedingt zeitlich ausgerichtet sind, jedoch weiterhin sequenziell sind. Um die langen Sequenzen von Video-Audio-Eingaben zu bewältigen, schlagen wir vor, die Video- und Audiodaten in aufeinanderfolgende Snippets zu unterteilen und deren Repräsentationen autoregressiv zu verarbeiten. Dazu führen wir eine Combiner-Mechanismus ein, der die Audio-Video-Informationen innerhalb eines Zeitfensters gemeinsam modelliert. Der Combiner lernt, Audio- und Video-Features aus rohen räumlich-zeitlichen Signalen zu extrahieren, und anschließend, diese Features zu fusionieren, um kompakte, aber expressive Repräsentationen pro Snippet zu erzeugen.Unser Ansatz erreicht den Stand der Technik auf etablierten multimodalen Benchmarks und übertrifft dabei deutlich größere Modelle. Er bewältigt effektiv die hohen Rechenanforderungen media-basierter Eingaben, indem er kompakte Repräsentationen lernt, die Sequenzlänge der Audio-Video-Feature-Repräsentationen kontrolliert und gleichzeitig deren zeitliche Abhängigkeiten modelliert.