HyperAIHyperAI
vor 2 Monaten

Hierarchischer multimodaler Transformer zur Zusammenfassung von Videos

Bin Zhao; Maoguo Gong; Xuelong Li
Hierarchischer multimodaler Transformer zur Zusammenfassung von Videos
Abstract

Obwohl die Videozusammenfassung dank rekurrenter neuronaler Netze (RNN) große Erfolge erzielt hat, vernachlässigen RNN-basierte Methoden die globalen Abhängigkeiten und mehrstufigen Beziehungen zwischen Videoframes, was die Leistung einschränkt. Der Transformer ist ein effektives Modell, um dieses Problem zu lösen, und übertrifft RNN-basierte Methoden in mehreren sequentiellen Modellierungsaufgaben, wie maschinelle Übersetzung, Video-Beschreibung etc. Angeregt durch den großen Erfolg des Transformers und der natürlichen Struktur von Videos (Frame-Szene-Video), wurde ein hierarchischer Transformer für die Videozusammenfassung entwickelt, der die Abhängigkeiten zwischen Frames und Szenen erfassen kann und das Video durch Ausnutzen der durch Szenen gebildeten Bildinformation zusammenfasst. Darüber hinaus argumentieren wir, dass sowohl audio- als auch visuelle Informationen für die Aufgabe der Videozusammenfassung essentiell sind. Um diese beiden Arten von Informationen zu integrieren, werden sie in einem Zweistromschema kodiert, und ein multimodales Fusionsmechanismus wurde auf Basis des hierarchischen Transformers entwickelt. In dieser Arbeit wird die vorgeschlagene Methode als Hierarchischer Multimodaler Transformer (HMT) bezeichnet. Praktische umfangreiche Experimente zeigen, dass HMT die meisten traditionellen, RNN-basierten und aufmerksamkeitsbasierten Videozusammenfassungsmethoden übertrifft.

Hierarchischer multimodaler Transformer zur Zusammenfassung von Videos | Neueste Forschungsarbeiten | HyperAI