HyperAIHyperAI
vor 17 Tagen

CREMA: Verallgemeinerbare und effiziente videobasierte Sprachschlussfolgerung durch multimodulare modulare Fusion

Shoubin Yu, Jaehong Yoon, Mohit Bansal
CREMA: Verallgemeinerbare und effiziente videobasierte Sprachschlussfolgerung durch multimodulare modulare Fusion
Abstract

Trotz beeindruckender Fortschritte in jüngsten multimodalen Schlussfolgerungsansätzen bleiben diese aufgrund ihrer geringen Flexibilität und Effizienz eingeschränkt, da diese Modelle typischerweise nur eine geringe Anzahl fester Modaltitäten verarbeiten und eine Aktualisierung einer großen Anzahl von Parametern erfordern. In dieser Arbeit werden diese zentralen Herausforderungen adressiert, und es wird CREMA vorgestellt – ein verallgemeinerungsfähiges, äußerst effizientes und modulares Modalfusionsframework, das beliebige neue Modalitäten integrieren kann, um die Video-Schlussfolgerung zu verbessern. Zunächst erweitern wir mehrere informativ relevante Modalitäten (wie optischer Fluss, 3D-Punktwolke, Audio, thermisches Heatmap und Berührkarte) aus gegebenen Videos ohne zusätzliche menschliche Annotationen, indem wir Sensoren oder bereits vortrainierte Modelle nutzen. Anschließend führen wir einen Abfragen-Transformer mit mehreren parameter-effizienten Modulen ein, die jeweils einer zugänglichen Modality zugeordnet sind. Dieser projiziert diverse Modalfunktionen in den Embedding-Raum der LLM-Token, wodurch das Modell die Integration unterschiedlicher Datentypen für die Antwortgenerierung ermöglicht. Darüber hinaus schlagen wir ein neuartiges, fortschreitendes multimodales Fusionsdesign vor, das durch ein leichtgewichtiges Fusionsmodul und eine modality-sequenzielle Trainingsstrategie unterstützt wird. Dieses unterstützt die Kompression von Informationen über verschiedene unterstützende Modalitäten und gewährleistet gleichzeitig eine hohe Recheneffizienz im LLM, während die Leistungsfähigkeit verbessert wird. Wir validieren unsere Methode an sieben Video-Sprache-Schlussfolgerungsaufgaben, die durch unterschiedliche Modalitäten unterstützt werden, einschließlich klassischer VideoQA sowie Video-Audio-/3D-/Touch-/Thermal-QA, und erreichen eine bessere oder gleichwertige Leistung gegenüber starken multimodalen LLMs wie OneLLM, BLIP-2 und SeViLA, wobei die antrainierbaren Parameter um über 90 % reduziert werden. Wir liefern umfassende Analysen zu CREMA, darunter die Auswirkung jeder Modality auf die Schlussfolgerungsbereiche, die Gestaltung des Fusionsmoduls sowie Beispielsvisualisierungen.

CREMA: Verallgemeinerbare und effiziente videobasierte Sprachschlussfolgerung durch multimodulare modulare Fusion | Neueste Forschungsarbeiten | HyperAI