
教師あり行動セグメンテーションのタスクに取り組み、動画を重複のないセグメントに分割し、それぞれが異なる行動を表すことを目的とする。近年の研究では、フレームレベルでの時系列モデリングにTransformerを適用する手法が提案されているが、計算コストが高く、長時間にわたる行動間の依存関係を十分に捉えることができないという課題がある。本研究では、効率的なBIレベル時系列モデリング(BIT)フレームワークを提案する。このフレームワークは、行動セグメントを明示的に表現する行動トークンを学習し、フレームレベルと行動レベルの両方で並列的に時系列モデリングを実行しながら、低コストな計算を維持する。本モデルは以下の3つの構成要素で構成される:(i) フレームレベルの関係を畳み込み層で学習するフレームブランチ、(ii) 少数の行動トークンを用いてTransformerにより行動レベルの依存関係を学習する行動ブランチ、(iii) 両ブランチ間の通信を可能にするクロスアテンション。さらに、セット予測(set-prediction)目的関数を導入・拡張し、各行動トークンが1つ以上の行動セグメントを表すようにすることで、多数のセグメントを持つ長時間の動画において大量のトークンを学習する必要を回避する。行動ブランチの設計により、利用可能な場合、動画のテキストトランスクリプトを用いて行動トークンを初期化することで、行動セグメンテーションの精度向上が可能となる。本モデルは、2つのエゴセントリックデータセットと2つのサードパーソンデータセットにおいて、トランスクリプト有無を問わず行動セグメンテーションを評価した結果、従来のTransformerベースの手法と比較して、30倍以上高速でありながら、顕著に高い精度を達成し、最先端の性能を大幅に改善した。