HyperAIHyperAI

Command Palette

Search for a command to run...

Mirasol3B: Ein multimodales autoregressives Modell für zeitlich abgestimmte und kontextuelle Modalitäten

AJ Piergiovanni Isaac Noble Dahun Kim Michael S. Ryoo Victor Gomes Anelia Angelova

Zusammenfassung

Eine der zentralen Herausforderungen des multimodalen Lernens besteht darin, heterogene Modalitäten (z. B. Video, Audio, Text) zu kombinieren. Beispielsweise werden Video- und Audiodaten mit deutlich höherer Frequenz erfasst als Text und sind grob zeitlich synchronisiert. Sie sind jedoch oft nicht mit dem Text synchron, der als globaler Kontext – etwa ein Titel oder eine Beschreibung – bereitgestellt wird. Zudem weisen Video- und Audiodaten eine viel größere Datenmenge auf und wachsen mit der Länge des Videos, was naturgemäß einen höheren Rechenaufwand für diese Modalitäten erfordert und die Modellierung langfristiger Abhängigkeiten erschwert.In diesem Beitrag trennen wir die multimodale Modellierung in separate, spezifisch ausgerichtete autoregressive Modelle auf, die die Eingaben gemäß den jeweiligen Eigenschaften der Modalitäten verarbeiten. Wir stellen ein multimodales Modell namens Mirasol3B vor, das aus zwei autoregressiven Komponenten besteht: einer für die zeitlich synchronisierten Modalitäten (Audio und Video) und einer für die kontextuellen Modalitäten, die nicht unbedingt zeitlich ausgerichtet sind, jedoch weiterhin sequenziell sind. Um die langen Sequenzen von Video-Audio-Eingaben zu bewältigen, schlagen wir vor, die Video- und Audiodaten in aufeinanderfolgende Snippets zu unterteilen und deren Repräsentationen autoregressiv zu verarbeiten. Dazu führen wir eine Combiner-Mechanismus ein, der die Audio-Video-Informationen innerhalb eines Zeitfensters gemeinsam modelliert. Der Combiner lernt, Audio- und Video-Features aus rohen räumlich-zeitlichen Signalen zu extrahieren, und anschließend, diese Features zu fusionieren, um kompakte, aber expressive Repräsentationen pro Snippet zu erzeugen.Unser Ansatz erreicht den Stand der Technik auf etablierten multimodalen Benchmarks und übertrifft dabei deutlich größere Modelle. Er bewältigt effektiv die hohen Rechenanforderungen media-basierter Eingaben, indem er kompakte Repräsentationen lernt, die Sequenzlänge der Audio-Video-Feature-Repräsentationen kontrolliert und gleichzeitig deren zeitliche Abhängigkeiten modelliert.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Mirasol3B: Ein multimodales autoregressives Modell für zeitlich abgestimmte und kontextuelle Modalitäten | Paper | HyperAI