7日前

UMT:統合的マルチモーダルトランスフォーマーによる同時動画モーメント検出とハイライト検出

Ye Liu, Siyuan Li, Yang Wu, Chang Wen Chen, Ying Shan, Xiaohu Qie
UMT:統合的マルチモーダルトランスフォーマーによる同時動画モーメント検出とハイライト検出
要約

自然言語によるクエリに応じて動画内の関連する瞬間やハイライトを検出することは、現在の動画コンテンツの爆発的増加時代において、自然かつ極めて価値のある共通的なニーズである。しかし、瞬間検出(moment retrieval)とハイライト検出(highlight detection)を同時に実行するという課題は、その構成要素や関連するタスクはすでに長年にわたり研究されてきたものの、依然として新しい研究分野である。本論文では、このような共同最適化を実現可能な初めての統一枠組みである「Unified Multi-modal Transformers(UMT)」を提案する。本フレームワークは、個別の問題に対して容易に簡略化(degenerate)可能な点が特徴であり、既存の手法とは異なり、視覚・音声のマルチモーダル学習を共同最適化および個別的な瞬間検出タスクの両方において統合的に活用する。さらに、新規のクエリ生成器(query generator)とクエリデコーダー(query decoder)を用いて、瞬間検出をキーポイント検出問題として定式化している。QVHighlights、Charades-STA、YouTube Highlights、TVSumの4つのデータセットにおいて、既存手法との広範な比較およびアブレーションスタディを通じて、提案手法の有効性、優位性、および多様な設定下での柔軟性が実証された。ソースコードおよび事前学習済みモデルは、https://github.com/TencentARC/UMT にて公開されている。

UMT:統合的マルチモーダルトランスフォーマーによる同時動画モーメント検出とハイライト検出 | 最新論文 | HyperAI超神経