6ヶ月前

概要

時空間行動局所（Temporal Action Localization, TAL）は、動画理解における困難なタスクの一つであり、動画シーケンス内に存在する行動を特定し、その位置を局所化することを目的としています。近年の研究では、抽出された動画クリップ特徴量に対して長期的時系列文脈モデリング（Temporal Context Modeling, TCM）ブロックを適用することの重要性が強調されています。具体的には、複雑な自己注意（self-attention）機構を用いることが提案されています。本論文では、このタスクに取り組むためにこれまでで最も単純な手法を提示し、高度なアーキテクチャを用いずに、抽出された動画クリップ特徴量自体がすでに十分に情報量を有しており、優れた性能を達成可能であると主張します。そのために、基本的でパラメータフリーかつ局所領域に作用するマックスプーリングブロックを導入した「TemporalMaxer」を提案します。このブロックは長期的時系列文脈モデリングを最小限に抑えつつ、抽出された動画クリップ特徴量から最も重要な情報を最大限に引き出すことを目的としています。隣接するおよび局所的なクリップ埋め込みにおいて、最も重要な情報のみを抽出するため、より効率的なTALモデルの構築が可能になります。実験の結果、TemporalMaxerは自己注意機構を含む他の最先端手法と比較して、さまざまなTALデータセットにおいて優れた性能を発揮するとともに、大幅に少ないパラメータ数と計算リソースで実現できることを示しました。本研究のコードは、https://github.com/TuanTNG/TemporalMaxer にて公開されています。

ソースPDF