CinePile-Datensatz Zum Verstehen Von Fragen Und Antworten Zu Langen Videos
Datum
Größe
Veröffentlichungs-URL
Kategorien

Aktuelle Datensätze zum Verständnis von Langformvideos stellen häufig keine echte Herausforderung für das Verständnis von Langformvideos dar, da viele aus diesen Datensätzen abgeleitete Aufgaben erfolgreich durch die Analyse eines oder einiger zufällig ausgewählter Einzelbilder in einem Video gelöst werden können. Um dieses Problem zu lösen,Das Forschungsteam schlug einen neuen Datensatz und Benchmark namens CinePile vor, der für das Verständnis von Langformatvideos in der realen Welt entwickelt wurde.
Das Forschungsteam nutzte fortschrittliches LLM und Mensch-Computer-Interaktion und baute auf ursprünglichen, vom Menschen generierten Daten auf. Der umfassende Datensatz enthält 305.000 Multiple-Choice-Fragen (MCQs) zu verschiedenen visuellen und multimodalen Aspekten, darunter zeitliches Verständnis, das Verständnis von Mensch-Objekt-Interaktionen und das Denken über Ereignisse oder Aktionen innerhalb einer Szene. Darüber hinaus werden aktuelle videozentrierte LLMs, sowohl Open Source als auch proprietäre, im Testteil des Datensatzes bewertet. Unsere Ergebnisse zeigen, dass selbst hochmoderne videozentrierte LLMs bei diesen Aufgaben deutlich schlechter abschneiden als Menschen, was die inhärente Komplexität und die Herausforderungen des Videoverständnisses verdeutlicht.