HyperAIHyperAI

Command Palette

Search for a command to run...

MA-LMM: Memory-Augmentiertes großes multimodales Modell für die langfristige Videoverstehensanalyse

Bo He Hengduo Li Young Kyun Jang Menglin Jia Xuefei Cao Ashish Shah Abhinav Shrivastava Ser-Nam Lim

Zusammenfassung

Mit dem Erfolg großer Sprachmodelle (LLMs) hat sich das Interesse daran gesteigert, Vision-Modelle in LLMs zu integrieren, um visuelle-linguistische Grundmodelle zu erstellen. Bestehende LLM-basierte große multimodale Modelle (z.B. Video-LLaMA, VideoChat) können jedoch nur eine begrenzte Anzahl von Frames für die Analyse kurzer Videos verarbeiten. In dieser Studie konzentrieren wir uns hauptsächlich auf die Entwicklung eines effizienten und effektiven Modells für die Analyse langer Videos. Im Gegensatz zu den meisten bestehenden Ansätzen, die versuchen, mehr Frames gleichzeitig zu verarbeiten, schlagen wir vor, Videos in einem Online-Modus zu verarbeiten und vergangene Videoinformationen in einer Speicherbank zu speichern. Dies ermöglicht es unserem Modell, historische Videoinhalte für langfristige Analysen abzurufen, ohne die Kontextlängenbeschränkungen der LLMs oder die GPU-Speichergrenzen zu überschreiten. Unsere Speicherbank kann nahtlos in aktuelle multimodale LLMs integriert werden. Wir führen umfangreiche Experimente bei verschiedenen Videoanalyseaufgaben durch, wie zum Beispiel der Analyse langer Videos, Video-Fragebeantwortung und Video-Beschreibungserstellung, und unser Modell erreicht den aktuellen Stand der Technik auf mehreren Datensätzen. Der Quellcode ist unter https://boheumd.github.io/MA-LMM/ verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
MA-LMM: Memory-Augmentiertes großes multimodales Modell für die langfristige Videoverstehensanalyse | Paper | HyperAI