2ヶ月前

UniMD: 時刻検索と時間的アクション検出の統一に向けて

Zeng, Yingsen ; Zhong, Yujie ; Feng, Chengjian ; Ma, Lin
UniMD: 時刻検索と時間的アクション検出の統一に向けて
要約

時間的アクション検出(Temporal Action Detection: TAD)は、事前に定義されたアクションの検出に焦点を当てています。一方、モーメント検索(Moment Retrieval: MR)は、自然言語で自由に記述されたイベントをトリミングされていない動画内から特定することを目指しています。これらが異なるイベントに焦点を当てているにもかかわらず、両者間に重要な関連性があることが観察されました。例えば、MRのほとんどの説明にはTADの複数のアクションが含まれています。本論文では、TADとMRの間にある潜在的なシナジー効果を調査することを目的としています。まず、TADとMRの両方に対応する統一アーキテクチャである統一モーメント検出(Unified Moment Detection: UniMD)を提案します。このアーキテクチャは、TADのアクションまたはMRのイベントという2つのタスクの入力を共通の埋め込み空間に変換し、2つの新しいクエリ依存デコーダーを利用して分類スコアと時間的区間の一貫した出力を生成します。次に、事前学習と共同学習という2つのタスク融合学習手法の効果を探ります。これらの手法により、TADとMRが互いに補完し合い、単独で訓練されたモデルよりも優れた性能を発揮することが確認されました。広範な実験結果から、提案したタスク融合学習スキームが両タスクに対して相互補完的な効果を持ち、それぞれ単独で訓練されたモデルを超える性能を達成することが示されています。特に注目に値するのは、UniMDがEgo4D, Charades-STA, およびActivityNetという3つのペアデータセットにおいて最先端の結果を達成していることです。当研究におけるコードはhttps://github.com/yingsen1/UniMDで公開されています。