Command Palette
Search for a command to run...
ASFormer:アクションセグメンテーションのためのTransformer
ASFormer:アクションセグメンテーションのためのTransformer
Fangqiu Yi Hongyu Wen Tingting Jiang
概要
アクションセグメンテーションタスクにおける従来のアルゴリズムは、1分間の日常行動動画に対して各フレームで何のアクションが発生しているかを予測するため、通常、時系列モデルを用いる。近年の研究では、Transformerが順序データにおける要素間の関係をモデル化する可能性を示している。しかし、Transformerをアクションセグメンテーションタスクに直接適用する際には、いくつかの主要な課題が存在する。すなわち、小規模な訓練データセットにおける誘導的バイアス(inductive biases)の欠如、長大な入力シーケンスの処理能力の不足、およびデコーダアーキテクチャの制限により、複数のアクションセグメント間の時系列的関係を有効に活用して初期予測を改善することができない点である。これらの課題に対処するため、本研究では、アクションセグメンテーションタスクに特化した効率的なTransformerベースのモデル、ASFormerを提案する。本モデルは以下の三つの特徴を持つ:(i) 特徴量の高い局所性(locality)を踏まえ、局所的な接続性に関する誘導的事前知識(inductive priors)を明示的に導入する。これにより仮説空間が信頼できる範囲に制限され、小規模な訓練データセットでも適切なターゲット関数を学習する上で有益となる。(ii) 事前に定義された階層的表現パターンを採用することで、長大な入力シーケンスを効率的に処理する。(iii) エンコーダから得られる初期予測を改善するため、デコーダを慎重に設計する。3つの公的データセットを用いた広範な実験により、本手法の有効性が実証された。コードは以下のURLから入手可能である:\url{https://github.com/ChinaYi/ASFormer}。