HyperAIHyperAI
vor 7 Tagen

UMT: Unified Multi-modal Transformers für die gemeinsame Video-Moment-Abfrage und Hervorhebungserkennung

Ye Liu, Siyuan Li, Yang Wu, Chang Wen Chen, Ying Shan, Xiaohu Qie
UMT: Unified Multi-modal Transformers für die gemeinsame Video-Moment-Abfrage und Hervorhebungserkennung
Abstract

Die Identifizierung relevanter Momente und Highlights in Videos basierend auf natürlichsprachlichen Anfragen ist eine natürliche und äußerst wertvolle Anforderung in der gegenwärtigen Ära des explosionsartigen Wachstums von Videoinhalten. Dennoch stellt die gleichzeitige Durchführung von Momentenretrieval und Highlight-Detektion ein emergentes Forschungsthema dar, obwohl die einzelnen Teilprobleme und einige verwandte Aufgaben bereits länger untersucht wurden. In diesem Paper präsentieren wir den ersten einheitlichen Rahmenwerk, namens Unified Multi-modal Transformers (UMT), der in der Lage ist, eine solche gemeinsame Optimierung durchzuführen und gleichzeitig einfach auf die Lösung einzelner Probleme reduziert werden kann. Soweit uns bekannt ist, handelt es sich hierbei um den ersten Ansatz, der multimodales (visuelles-auditorisches) Lernen sowohl für die gemeinsame Optimierung als auch für die einzelne Momentenretrieval-Aufgabe integriert und das Momentenretrieval als Keypoint-Detektionsproblem mittels eines neuartigen Query-Generators und Query-Decoders behandelt. Umfangreiche Vergleiche mit bestehenden Methoden sowie Ablationsstudien auf den Datensätzen QVHighlights, Charades-STA, YouTube Highlights und TVSum belegen die Wirksamkeit, Überlegenheit und Flexibilität des vorgeschlagenen Ansatzes unter verschiedenen Bedingungen. Der Quellcode und vortrainierte Modelle sind unter https://github.com/TencentARC/UMT verfügbar.

UMT: Unified Multi-modal Transformers für die gemeinsame Video-Moment-Abfrage und Hervorhebungserkennung | Neueste Forschungsarbeiten | HyperAI