HyperAIHyperAI
vor 2 Monaten

Flash-VStream: Speicherbasiertes Echtzeit-Verständnis für lange Videostreams

Haoji Zhang, Yiqin Wang, Yansong Tang, Yong Liu, Jiashi Feng, Jifeng Dai, Xiaojie Jin
Flash-VStream: Speicherbasiertes Echtzeit-Verständnis für lange Videostreams
Abstract

Dank der Fortschritte in großen Sprachmodellen und multimodalen Ausrichtung haben bestehende Methoden zur multimodalen Videoanalyse in Offline-Szenarien ausgezeichnete Leistungen erzielt. Online-Videostreams, eine der am häufigsten vorkommenden Medienformen in der realen Welt, haben jedoch selten Beachtung gefunden. Im Vergleich zu Offline-Videos stellt die „dynamische“ Natur von Online-Videostreams Herausforderungen für die direkte Anwendung bestehender Modelle dar und führt zu neuen Problemen, wie zum Beispiel dem Speichern von extrem langfristigen Informationen und der Interaktion zwischen kontinuierlichem visuellem Inhalt und „asynchronen“ Benutzerfragen. Daher präsentieren wir in dieser Arbeit Flash-VStream, ein Video-Sprachmodell, das den Gedächtnismechanismus des Menschen simuliert. Unser Modell ist in der Lage, extrem lange Videostreams in Echtzeit zu verarbeiten und gleichzeitig auf Benutzeranfragen zu reagieren. Im Vergleich zu bestehenden Modellen erreicht Flash-VStream erhebliche Reduzierungen bei der Inferenzlatenz und dem VRAM-Verbrauch, was eng mit der Analyse von Online-Videostreams zusammenhängt. Zudem, da bestehende Benchmarks für Videoanalyse hauptsächlich auf Offline-Szenarien fokussiert sind, schlagen wir VStream-QA vor, einen neuen Frage-Antwort-Benchmark, speziell für die Analyse von Online-Videostreams entwickelt. Vergleiche mit gängigen existierenden Methoden anhand des vorgeschlagenen Benchmarks zeigen die Überlegenheit unserer Methode bei solch anspruchsvollen Szenarien. Um die Allgemeingültigkeit unseres Ansatzes zu überprüfen, bewerten wir ihn zudem anhand bestehender Benchmarks für Videoanalyse und erzielen auch hier Spitzenleistungen in Offline-Szenarien. Der gesamte Code, die Modelle und die Datensätze sind unter https://invinciblewyq.github.io/vstream-page/ verfügbar.

Flash-VStream: Speicherbasiertes Echtzeit-Verständnis für lange Videostreams | Neueste Forschungsarbeiten | HyperAI