CinePile: Ein Datensatz und Benchmark für lange Videofragen-Antworten

Aktuelle Datensätze für die Analyse langer Videos reichen oft nicht aus, um echte Herausforderungen im Bereich der langfristigen Verständnis zu bieten, da viele Aufgaben, die sich aus diesen Datensätzen ableiten lassen, durch die Analyse von nur einem oder wenigen zufällig ausgewählten Bildern eines Videos erfolgreich gelöst werden können. Um dieses Problem anzugehen, stellen wir einen neuen Datensatz und Benchmark vor: CinePile, der speziell für authentische long-form Video-Verständnis entwickelt wurde. In dieser Arbeit beschreiben wir unseren innovativen Ansatz zur Erstellung eines Frage-Antwort-Datensatzes, wobei wir fortgeschrittene LLMs (Large Language Models) mit menschlicher Beteiligung einsetzen und auf rohen Daten basieren, die von Menschen generiert wurden. Unser umfassender Datensatz besteht aus 305.000 Multiple-Choice-Fragen (MCQs) und deckt verschiedene visuelle und multimodale Aspekte ab, darunter zeitliches Verständnis, das Verstehen von Mensch-Objekt-Interaktionen sowie das Schließen über Ereignisse oder Aktionen innerhalb einer Szene. Zudem haben wir offene Video-LLMs anhand des Trainingsaufteils feinjustiert und sowohl offene als auch proprietäre videozentrierte LLMs anhand des Testaufteils unseres Datensatzes evaluiert. Die Ergebnisse zeigen, dass obwohl aktuelle Modelle im Vergleich zu Menschen unterdurchschnittlich abschneiden, die Feinjustierung dieser Modelle zu erheblichen Leistungssteigerungen führen kann.