HyperAIHyperAI
vor 2 Monaten

PPLLaVA: Verständnis vielfältiger Videosequenzen durch promptgesteuerte Anleitung

Ruyang Liu, Haoran Tang, Haibo Liu, Yixiao Ge, Ying Shan, Chen Li, Jiankun Yang
PPLLaVA: Verständnis vielfältiger Videosequenzen durch promptgesteuerte Anleitung
Abstract

Im vergangenen Jahr haben videobasierte große Sprachmodelle (LLMs) erhebliche Fortschritte gemacht. Dennoch bleibt die Herausforderung, ein einheitliches Modell für das Verständnis sowohl kurzer als auch langer Videos zu entwickeln, ungelöst. Die meisten existierenden Video-LLMs können Stundenlanges Video nicht verarbeiten, während Methoden, die speziell für lange Videos entwickelt wurden, oft für kürzere Videos und Bilder ineffektiv sind. In dieser Arbeit identifizieren wir das zentrale Problem als überflüssige Inhalte in Videos. Um dies anzugehen, schlagen wir eine neuartige Pooling-Strategie vor, die gleichzeitig Token-Kompression und instruktionsbewusste visuelle Merkmalsaggregation erreicht. Unser Modell wird als Prompt-gesteuerte Pooling LLaVA (PPLLaVA) bezeichnet.Speziell besteht PPLLaVA aus drei Kernkomponenten: der CLIP-basierten visuellen-Prompt-Ausrichtung, die visuelle Informationen extrahiert, die relevant für die Anweisungen des Benutzers sind; dem prompt-gesteuerten Pooling, das die visuelle Sequenz auf beliebige Skalen mithilfe von konvolutionärem Pooling komprimiert; und der Clip-Kontext-Erweiterung, die für längere Prompts im visuellen Dialog ausgelegt ist. Darüber hinaus integriert unser Codebasis auch die fortschrittlichsten Verfahren der direkten Präferenzoptimierung (DPO) und des visuellen Interleaving-Trainings.Ausführliche Experimente haben die Leistungsfähigkeit unseres Modells bestätigt. Mit einer überlegenen Durchsatzrate und nur 1024 visuellen Kontexten erreicht PPLLaVA bessere Ergebnisse auf Bildbenchmarks als ein Video-LLM, während es den Stand der Technik in verschiedenen Videobenchmarks erreicht und in Aufgaben von der Generierung von Bildunterschriften bis hin zu Multiple-Choice-Fragen glänzt. Es kann Video-Längen von Sekunden bis Stunden verarbeiten. Der Quellcode ist unter https://github.com/farewellthree/PPLLaVA verfügbar.