Shot2Story: Eine Neue Referenz für die Umfassende Analyse von Mehrschuss-Videos

Ein kurzes Video kann die Entwicklung mehrerer Ereignisse und eine interessante Handlung enthalten. Ein Mensch muss sowohl jedes Ereignis in jedem Bildausschnitt erfassen als auch diese miteinander verknüpfen, um die dahinterliegende Geschichte zu verstehen. In dieser Arbeit stellen wir einen neuen Benchmark für die Verständnisanalyse von Mehrbildausschnitt-Videos vor: Shot2Story, der detaillierte Bildausschnitt-Level-Beschreibungen, umfassende Videozusammenfassungen und Frage-Antwort-Paare enthält. Um ein besseres semantisches Verständnis von Videos zu ermöglichen, bieten wir Beschreibungen sowohl für visuelle Signale als auch für menschliche Erzählungen. Wir haben mehrere unterschiedliche Aufgaben konzipiert, darunter das Beschreiben einzelner Bildausschnitte (single-shot video captioning), das Zusammenfassen von Mehrbildausschnitt-Videos (multi-shot video summarization) und das Beantworten von Fragen zu Mehrbildausschnitt-Videos (multi-shot video question answering). Vorläufige Experimente zeigen einige Herausforderungen bei der Generierung langer und umfassender Videozusammenfassungen für Mehrbildausschnitt-Videos. Dennoch erreichen die generierten unvollkommenen Zusammenfassungen bereits wettbewerbsfähige Leistungen bei bestehenden Videoverstehensaufgaben wie Video-Fragebeantwortung und fördern damit eine bisher wenig untersuchte Einstellung des Videoverstehens mit detaillierten Zusammenfassungen.