MA-LMM: Memory-Augmentiertes großes multimodales Modell für die langfristige Videoverstehensanalyse

Mit dem Erfolg großer Sprachmodelle (LLMs) hat sich das Interesse daran gesteigert, Vision-Modelle in LLMs zu integrieren, um visuelle-linguistische Grundmodelle zu erstellen. Bestehende LLM-basierte große multimodale Modelle (z.B. Video-LLaMA, VideoChat) können jedoch nur eine begrenzte Anzahl von Frames für die Analyse kurzer Videos verarbeiten. In dieser Studie konzentrieren wir uns hauptsächlich auf die Entwicklung eines effizienten und effektiven Modells für die Analyse langer Videos. Im Gegensatz zu den meisten bestehenden Ansätzen, die versuchen, mehr Frames gleichzeitig zu verarbeiten, schlagen wir vor, Videos in einem Online-Modus zu verarbeiten und vergangene Videoinformationen in einer Speicherbank zu speichern. Dies ermöglicht es unserem Modell, historische Videoinhalte für langfristige Analysen abzurufen, ohne die Kontextlängenbeschränkungen der LLMs oder die GPU-Speichergrenzen zu überschreiten. Unsere Speicherbank kann nahtlos in aktuelle multimodale LLMs integriert werden. Wir führen umfangreiche Experimente bei verschiedenen Videoanalyseaufgaben durch, wie zum Beispiel der Analyse langer Videos, Video-Fragebeantwortung und Video-Beschreibungserstellung, und unser Modell erreicht den aktuellen Stand der Technik auf mehreren Datensätzen. Der Quellcode ist unter https://boheumd.github.io/MA-LMM/ verfügbar.