Command Palette
Search for a command to run...
Shot2Story: Eine Neue Referenz für die Umfassende Analyse von Mehrschuss-Videos
Shot2Story: Eine Neue Referenz für die Umfassende Analyse von Mehrschuss-Videos
Mingfei Han extsuperscript2,3,5 extsuperscript† Linjie Yang extsuperscript1 extsuperscript† Xiaojun Chang extsuperscript3,4 Lina Yao extsuperscript5 Heng Wang extsuperscript1
Zusammenfassung
Ein kurzes Video kann die Entwicklung mehrerer Ereignisse und eine interessante Handlung enthalten. Ein Mensch muss sowohl jedes Ereignis in jedem Bildausschnitt erfassen als auch diese miteinander verknüpfen, um die dahinterliegende Geschichte zu verstehen. In dieser Arbeit stellen wir einen neuen Benchmark für die Verständnisanalyse von Mehrbildausschnitt-Videos vor: Shot2Story, der detaillierte Bildausschnitt-Level-Beschreibungen, umfassende Videozusammenfassungen und Frage-Antwort-Paare enthält. Um ein besseres semantisches Verständnis von Videos zu ermöglichen, bieten wir Beschreibungen sowohl für visuelle Signale als auch für menschliche Erzählungen. Wir haben mehrere unterschiedliche Aufgaben konzipiert, darunter das Beschreiben einzelner Bildausschnitte (single-shot video captioning), das Zusammenfassen von Mehrbildausschnitt-Videos (multi-shot video summarization) und das Beantworten von Fragen zu Mehrbildausschnitt-Videos (multi-shot video question answering). Vorläufige Experimente zeigen einige Herausforderungen bei der Generierung langer und umfassender Videozusammenfassungen für Mehrbildausschnitt-Videos. Dennoch erreichen die generierten unvollkommenen Zusammenfassungen bereits wettbewerbsfähige Leistungen bei bestehenden Videoverstehensaufgaben wie Video-Fragebeantwortung und fördern damit eine bisher wenig untersuchte Einstellung des Videoverstehens mit detaillierten Zusammenfassungen.