
要約
動画における長期的な文脈のモデリングは、時系列行動分割を含む多くの細粒度タスクにとって不可欠である。現在なお未解決の興味深い問題として、「最適な性能を発揮するために、どの程度の長期的な時系列的文脈が必要か」がある。トランスフォーマーは動画の長期的文脈をモデル化できるが、長時間の動画に対しては計算コストが膨大となり、実用上困難となる。そのため、最近の時系列行動分割の研究では、局所的な時系列窓内での自己注意(self-attention)を計算する時間的畳み込みネットワークと組み合わせるアプローチが採用されている。これらの手法は良好な結果を示しているものの、動画全体の文脈を捉える能力に限界があるため、性能が制約されている。本研究では、トランスフォーマーに基づくモデルを導入し、スパースな注意機構を用いて動画全体の文脈を捉えることにより、時系列行動分割に必要な長期的時系列文脈の量を明らかにすることを目的とする。我々は、50Salads、Breakfast、Assembly101の3つの時系列行動分割データセットにおいて、最新の最先端手法と本モデルを比較した。実験の結果、時系列行動分割の最高性能を達成するためには、動画の完全な文脈をモデル化することが不可欠であることが示された。