HyperAIHyperAI

Command Palette

Search for a command to run...

SlowFast-LLaVA: Eine starke trainingsfreie Baseline für Video-Sprachmodelle

Mingze Xu Mingfei Gao Zhe Gan Hong-You Chen Zhengfeng Lai Haiming Gang Kai Kang Afshin Dehghan

Zusammenfassung

Wir schlagen SlowFast-LLaVA (kurz SF-LLaVA) vor, ein trainingsfreies Video-Largesprachmodell (V-LLM), das detaillierte räumliche Semantik und langfristige zeitliche Kontexte gleichzeitig erfassen kann, ohne das Token-Budget üblicher Largesprachmodelle zu überschreiten. Dies wird durch die Verwendung eines zweiströmigen SlowFast-Designs für die Eingaben von V-LLMs realisiert, um Merkmale aus ausgewählten Videobildern effektiv zu aggregieren. Insbesondere extrahiert der Slow-Pfad Merkmale bei einer niedrigen Bildfrequenz, während er so viele räumliche Details wie möglich beibehält (z.B. mit 24x24 Tokens), und der Fast-Pfad arbeitet bei einer hohen Bildfrequenz, verwendet aber einen größeren räumlichen Pooling-Schritt (z.B. Abtastrate von 6x), um sich auf Bewegungshinweise zu konzentrieren. Dadurch ermöglicht dieses Design eine angemessene Erfassung sowohl räumlicher als auch zeitlicher Merkmale, die förderlich sind für das Verständnis von Details im Video. Experimentelle Ergebnisse zeigen, dass SF-LLaVA bestehende trainingsfreie Methoden in einem breiten Spektrum von Videoaufgaben übertrifft. Auf manchen Benchmarks erreicht es vergleichbare oder sogar bessere Leistungen als die besten Video-LLMs, die auf Videodatensätzen feintune wurden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp