SlowFast-LLaVA: Eine starke trainingsfreie Baseline für Video-Sprachmodelle

Wir schlagen SlowFast-LLaVA (kurz SF-LLaVA) vor, ein trainingsfreies Video-Largesprachmodell (V-LLM), das detaillierte räumliche Semantik und langfristige zeitliche Kontexte gleichzeitig erfassen kann, ohne das Token-Budget üblicher Largesprachmodelle zu überschreiten. Dies wird durch die Verwendung eines zweiströmigen SlowFast-Designs für die Eingaben von V-LLMs realisiert, um Merkmale aus ausgewählten Videobildern effektiv zu aggregieren. Insbesondere extrahiert der Slow-Pfad Merkmale bei einer niedrigen Bildfrequenz, während er so viele räumliche Details wie möglich beibehält (z.B. mit 24x24 Tokens), und der Fast-Pfad arbeitet bei einer hohen Bildfrequenz, verwendet aber einen größeren räumlichen Pooling-Schritt (z.B. Abtastrate von 6x), um sich auf Bewegungshinweise zu konzentrieren. Dadurch ermöglicht dieses Design eine angemessene Erfassung sowohl räumlicher als auch zeitlicher Merkmale, die förderlich sind für das Verständnis von Details im Video. Experimentelle Ergebnisse zeigen, dass SF-LLaVA bestehende trainingsfreie Methoden in einem breiten Spektrum von Videoaufgaben übertrifft. Auf manchen Benchmarks erreicht es vergleichbare oder sogar bessere Leistungen als die besten Video-LLMs, die auf Videodatensätzen feintune wurden.