HyperAIHyperAI
vor 17 Tagen

VideoXum: Kreuzmodale visuelle und texturale Zusammenfassung von Videos

Jingyang Lin, Hang Hua, Ming Chen, Yikang Li, Jenhao Hsiao, Chiuman Ho, Jiebo Luo
VideoXum: Kreuzmodale visuelle und texturale Zusammenfassung von Videos
Abstract

Die Videozusammenfassung zielt darauf ab, die wichtigsten Informationen aus einem Quellvideo zu extrahieren, um entweder einen verkürzten Videoclip oder eine textuelle Zusammenfassung zu erzeugen. Traditionell wurden unterschiedliche Methoden vorgeschlagen, je nachdem, ob die Ausgabe ein Video oder ein Text ist, wodurch die semantische Beziehung zwischen den beiden verwandten Aufgaben der visuellen und der textuellen Zusammenfassung vernachlässigt wurde. Wir stellen eine neue gemeinsame Aufgabe für Video- und Textzusammenfassung vor. Ziel ist es, sowohl einen verkürzten Videoclip als auch die entsprechende textuelle Zusammenfassung aus einem langen Video zu generieren, wobei beide gemeinsam als Kreuzmodalsummarie bezeichnet werden. Der erzeugte verkürzte Videoclip und die textuelle Zusammenfassung sollen semantisch gut ausgerichtet sein. Dazu erstellen wir zunächst eine großskalige, von Menschen annotierte Datensammlung – VideoXum (X steht für verschiedene Modalitäten). Die Datensammlung basiert auf ActivityNet und wurde neu annotiert. Nach Filterung der Videos, die die Längenvorgaben nicht erfüllen, verbleiben in unserer neuen Datensammlung 14.001 lange Videos. Jedes Video in der neu annotierten Datensammlung verfügt über menschlich annotierte Videozusammenfassungen sowie die entsprechenden narrativen Zusammenfassungen. Anschließend entwerfen wir ein neuartiges end-to-end-Modell – VTSUM-BILP –, um die Herausforderungen der vorgeschlagenen Aufgabe zu bewältigen. Darüber hinaus schlagen wir eine neue Metrik namens VT-CLIPScore vor, um die semantische Kohärenz der Kreuzmodalsummarie zu bewerten. Das vorgeschlagene Modell erzielt vielversprechende Ergebnisse bei dieser neuen Aufgabe und etabliert eine Benchmark für zukünftige Forschung.