HyperAI

VRBench: Eine Benchmark für mehrstufiges Schließen in langen narrativen Videos

Yu, Jiashuo ; Wu, Yue ; Chu, Meng ; Ren, Zhifei ; Huang, Zizheng ; Chu, Pei ; Zhang, Ruijie ; He, Yinan ; Li, Qirui ; Li, Songze ; Li, Zhenxiang ; Tu, Zhongying ; He, Conghui ; Qiao, Yu ; Wang, Yali ; Wang, Yi ; Wang, Limin
Veröffentlichungsdatum: 6/15/2025
VRBench: Eine Benchmark für mehrstufiges Schließen in langen narrativen Videos
Abstract

Wir präsentieren VRBench, die erste lange narrativen Video-Benchmark, die entwickelt wurde, um die mehrstufigen Schließleistungen großer Modelle zu bewerten und Mängel in bestehenden Evaluierungen zu adressieren, die zeitliche Schließleistung und prozedurale Gültigkeit vernachlässigen. Sie umfasst 1.010 lange Videos (mit durchschnittlich 1,6 Stunden Dauer), zusammen mit 9.468 von Menschen beschrifteten mehrstufigen Frage-Antwort-Paaren und 30.292 Schließschritten mit Zeitstempeln. Diese Videos wurden durch einen mehrstufigen Filterprozess kuriert, der Expertenbewertungen einschließt, um die Handlungscohärenz zu priorisieren. Wir haben ein menschlich-künstliche Intelligenz-Kollaborationsframework entwickelt, das kohärente Schließketten erzeugt, wobei jede mehrere zeitlich verankerte Schritte erfordert und sieben Arten abdeckt (z.B. Ereignisattribuierung, implizite Inferenz). VRBench gestaltet eine mehrphasige Evaluationspipeline, die Modelle sowohl auf Ergebnisebene als auch auf Prozessebene bewertet. Neben den Multiple-Choice-Fragen für die endgültigen Ergebnisse schlagen wir ein fortschrittsorientetes LLM-gesteuertes Bewertungsmaß vor, um die Qualität der Schließkette aus mehreren Dimensionen umfassend zu bewerten. Durch umfangreiche Evaluierungen von 12 LLMs und 16 VLMs auf VRBench führen wir eine gründliche Analyse durch und liefern wertvolle Erkenntnisse, die das Feld der mehrstufigen Schließleistung vorantreiben.