vor 8 Monaten

Zusammenfassung

Dank der Fortschritte in großen Sprachmodellen und multimodalen Ausrichtung haben bestehende Methoden zur multimodalen Videoanalyse in Offline-Szenarien ausgezeichnete Leistungen erzielt. Online-Videostreams, eine der am häufigsten vorkommenden Medienformen in der realen Welt, haben jedoch selten Beachtung gefunden. Im Vergleich zu Offline-Videos stellt die „dynamische“ Natur von Online-Videostreams Herausforderungen für die direkte Anwendung bestehender Modelle dar und führt zu neuen Problemen, wie zum Beispiel dem Speichern von extrem langfristigen Informationen und der Interaktion zwischen kontinuierlichem visuellem Inhalt und „asynchronen“ Benutzerfragen. Daher präsentieren wir in dieser Arbeit Flash-VStream, ein Video-Sprachmodell, das den Gedächtnismechanismus des Menschen simuliert. Unser Modell ist in der Lage, extrem lange Videostreams in Echtzeit zu verarbeiten und gleichzeitig auf Benutzeranfragen zu reagieren. Im Vergleich zu bestehenden Modellen erreicht Flash-VStream erhebliche Reduzierungen bei der Inferenzlatenz und dem VRAM-Verbrauch, was eng mit der Analyse von Online-Videostreams zusammenhängt. Zudem, da bestehende Benchmarks für Videoanalyse hauptsächlich auf Offline-Szenarien fokussiert sind, schlagen wir VStream-QA vor, einen neuen Frage-Antwort-Benchmark, speziell für die Analyse von Online-Videostreams entwickelt. Vergleiche mit gängigen existierenden Methoden anhand des vorgeschlagenen Benchmarks zeigen die Überlegenheit unserer Methode bei solch anspruchsvollen Szenarien. Um die Allgemeingültigkeit unseres Ansatzes zu überprüfen, bewerten wir ihn zudem anhand bestehender Benchmarks für Videoanalyse und erzielen auch hier Spitzenleistungen in Offline-Szenarien. Der gesamte Code, die Modelle und die Datensätze sind unter https://invinciblewyq.github.io/vstream-page/ verfügbar.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Videobegreifen

Visuelle Fragebeantwortung

Multimodal

Computervision

Aufgabe

Haoji Zhang Yiqin Wang Yansong Tang Yong Liu Jiashi Feng Jifeng Dai Xiaojie Jin

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Videobegreifen

Visuelle Fragebeantwortung

Multimodal

Computervision

Aufgabe

Haoji Zhang Yiqin Wang Yansong Tang Yong Liu Jiashi Feng Jifeng Dai Xiaojie Jin

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Flash-VStream: Speicherbasiertes Echtzeit-Verständnis für lange Videostreams

Haoji Zhang Yiqin Wang Yansong Tang Yong Liu Jiashi Feng Jifeng Dai Xiaojie Jin

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Flash-VStream: Speicherbasiertes Echtzeit-Verständnis für lange Videostreams

Haoji Zhang Yiqin Wang Yansong Tang Yong Liu Jiashi Feng Jifeng Dai Xiaojie Jin

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Flash-VStream: Speicherbasiertes Echtzeit-Verständnis für lange Videostreams

Haoji Zhang Yiqin Wang Yansong Tang Yong Liu Jiashi Feng Jifeng Dai Xiaojie Jin

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters