HyperAIHyperAI

Command Palette

Search for a command to run...

Konsole
vor einem Tag

MUVR: Ein Multi-Modales Benchmark für ungeschnittene Video-Abfrage mit Multi-Level-Visueller Korrespondenz

MUVR: Ein Multi-Modales Benchmark für ungeschnittene Video-Abfrage mit Multi-Level-Visueller Korrespondenz

Abstract

Wir schlagen die Aufgabe des multimodalen ungeschnittenen Video-Abfrages vor, zusammen mit einer neuen Benchmark (MUVR), um die Video-Abfrage für Langvideo-Plattformen voranzutreiben. MUVR zielt darauf ab, ungeschnittene Videos zu finden, die relevante Segmente enthalten, und nutzt dabei multimodale Abfragen. Die Benchmark weist folgende Merkmale auf: 1) Praktisches Abfrageparadigma: MUVR unterstützt videozentrierte multimodale Abfragen, die feinabgestimmte Abfrageanforderungen durch ausführliche Textbeschreibungen, Video-Tag-Prompts und Masken-Prompts ausdrücken. Sie setzt ein One-to-Many-Abfrageparadigma um und konzentriert sich auf ungeschnittene Videos, wodurch sie speziell für Anwendungen auf Langvideo-Plattformen geeignet ist. 2) Mehrstufige visuelle Korrespondenz: Um gängige Video-Kategorien (z. B. Nachrichten, Reisen, Tanzen) abzudecken und präzise Abfrage-Übereinstimmungskriterien zu definieren, haben wir eine mehrstufige visuelle Korrespondenz basierend auf zentralen Videoinhalten (z. B. Nachrichtenereignisse, Reiseziele, Tanzbewegungen) aufgebaut, die von Nutzern interessiert und abgerufen werden sollen. Diese umfasst sechs Ebenen: Kopie, Ereignis, Szene, Instanz, Aktion und andere. 3) Umfassende Bewertungskriterien: Wir entwickeln drei Versionen von MUVR (nämlich Base, Filter, QA). MUVR-Base/Filter dient der Evaluation von Abfragemodellen, während MUVR-QA multimodale große Sprachmodelle (MLLMs) in Form einer Frage-Antwort-Aufgabe bewertet. Zudem schlagen wir einen Reranking-Score vor, um die Fähigkeit von MLLMs im Bereich des Rerankings zu bewerten. MUVR umfasst 53.000 ungeschnittene Videos aus der Video-Plattform Bilibili, 1.050 multimodale Abfragen und 84.000 Übereinstimmungen. Es werden umfassende Evaluationen von drei state-of-the-art-Video-Abfragemodellen, sechs bildbasierten VLMs und zehn MLLMs durchgeführt. MUVR zeigt die Grenzen bestehender Abfragemethoden bei der Verarbeitung ungeschnittener Videos und multimodaler Abfragen sowie die Limitationen von MLLMs im Bereich des Mehrvideo-Verständnisses und des Rerankings auf.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp