11日前
アクションセグメンテーションにおいて、本当に時系列畳み込みが必要なのか?
Dazhao Du, Bing Su, Yu Li, Zhongang Qi, Lingyu Si, Ying Shan

要約
アクション分類は著しい進展を遂げているが、長時間の未トリム動画からのアクションのセグメンテーションと認識は依然として困難な課題である。現在の最先端手法の多くは、時系列畳み込み(temporal convolution)に基づくモデルの設計に注力しているが、時系列畳み込みの柔軟性の欠如および長期的な時系列依存関係をモデル化する際の困難さにより、これらのモデルの潜在能力は制限されている。近年、柔軟な順序処理能力とシーケンスモデリング能力を備えたTransformerベースのモデルが、さまざまなタスクに活用されている。しかし、誘導的バイアス(inductive bias)の欠如および長時間の動画シーケンスを効率的に処理できない点が、Transformerのアクションセグメンテーションへの応用を妨げている。本論文では、時系列畳み込みを一切用いない純粋なTransformerベースのモデルを提案する。このモデルは、時系列サンプリングを組み込むことで、Temporal U-Transformer(TUT)と命名している。U-Transformerアーキテクチャは、計算量の低減を実現しつつ、隣接するフレームは同一クラスに属する可能性が高いという誘導的バイアスを導入している。しかし、粗い解像度の導入により、境界領域の誤分類が生じる問題がある。本研究では、境界フレームとその隣接フレーム間の類似度分布が、その境界フレームがアクションセグメントの開始か終了かによって異なることに着目し、アテンションモジュールから得られるフレーム間類似度スコアの分布に基づいた境界に配慮した損失関数を新たに提案する。これにより、境界の認識能力を強化する。広範な実験により、本モデルの有効性が確認された。