PLLaVA: Parameterfreie Erweiterung von LLaVA von Bildern zu Videos für die dichte Videobeschreibung

Die Vision-Sprach-Vorverarbeitung (vision-language pre-training) hat die Leistungsfähigkeit in einem breiten Spektrum von Bild-Sprach-Anwendungen erheblich verbessert. Dennoch verlangt der Vorverarbeitungsprozess für videobezogene Aufgaben außergewöhnlich große Rechen- und Datenressourcen, was den Fortschritt von Video-Sprach-Modellen behindert. In dieser Arbeit untersuchen wir einen einfachen, hoch effizienten und ressourcenschonenden Ansatz zur Anpassung eines bestehenden Bild-Sprach-Vorverarbeitungsmodells für die dichte Videoverstehensanalyse (dense video understanding). Unsere vorläufigen Experimente zeigen, dass das direkte Feinjustieren (fine-tuning) von vorverarbeiteten Bild-Sprach-Modellen mit mehreren Bildern als Eingabe auf Videodatensätzen zu einer Leistungssättigung oder sogar einem Rückgang führt. Unser weiterer Nachforschungen ergaben, dass dies größtenteils auf den Bias der gelernten hochnormierten visuellen Merkmale (high-norm visual features) zurückzuführen ist. Angeregt durch dieses Ergebnis schlagen wir eine einfache, aber effektive Pooling-Strategie vor, um die Merkmalsverteilung entlang der zeitlichen Dimension zu glätten und so die dominierenden Einflüsse von extremen Merkmalen zu reduzieren. Das neue Modell wird als Pooling LLaVA (PLLaVA) bezeichnet. PLLaVA erreicht neue Standarte-Leistungen (state-of-the-art performance) in modernen Benchmark-Datensätzen sowohl für Video-Frage-Antwort- als auch für Captioning-Aufgaben. Bemerkenswerterweise erreicht PLLaVA im neuerdings populären Video ChatGPT-Benchmark einen Durchschnittswert von 3,48 aus 5 Punkten über fünf bewertete Dimensionen, was 9 % höher liegt als die bisher besten Ergebnisse (SOTA results) des GPT4V (IG-VLM). Im neuesten Mehrfachauswahl-Benchmark MVBench erreicht PLLaVA durchschnittlich eine Genauigkeit von 58,1 % über 20 Teilaufgaben, was 14,5 % höher ist als GPT4V (IG-VLM). Der Quellcode ist unter https://github.com/magic-research/PLLaVA verfügbar.