
我々は、動画のフレーム単位での行動ラベルを予測することを目的とする教師あり行動セグメンテーションを研究している。従来の手法では、長時間にわたる時系列依存関係を捉えるために、Transformerを用いてフレーム特徴量を改善するか、学習された行動特徴量を用いてフレーム単位の予測を精緻化するアプローチが採用されてきた。しかし、これらの手法は計算コストが高く、フレーム特徴量と行動特徴量が互いに補完的な情報を含んでいるという点を無視している。この補完的な情報は、両方の特徴量の向上と時系列モデリングの強化に活用できる。そこで、本研究では、フレーム特徴量と行動特徴量を並列的に処理し、その並列性を活かして両特徴量間で反復的かつ双方向の情報伝達を実現する、効率的なフレーム・アクション相互注意時系列モデリング(Frame-Action Cross-attention Temporal modeling, FACT)フレームワークを提案する。FACTネットワークは以下の3つの構成要素からなる:(i) 畳み込み演算とフレーム特徴量を用いてフレームレベルの情報を学習するフレームブランチ、(ii) Transformerと行動トークンを用いて行動レベルの依存関係を学習するアクションブランチ、(iii) 両ブランチ間の通信を可能にする相互注意(cross-attention)モジュール。さらに、各行動トークンが一意に行動セグメントを符号化するよう保証する新しいマッチング損失関数を提案した。このアーキテクチャの利点として、動画のテキストトランスクリプトを活用して行動セグメンテーションを支援することも可能である。FACTは、2つのエゴセントリック(主観視点)および2つのサードパーソン(第三者視点)の動画データセットにおいて、トランスクリプト有無を問わず評価された。その結果、既存のTransformerベースの手法と比較して、顕著に高い精度を達成するとともに、計算コストは約3倍高速化することを確認した。これにより、性能と効率の両立を実現した。