
要約
本論文では、長期的な運動をより良い動画表現に学習するために、異なる時間分解能の抽象化を活用する二本のストリームからなるアーキテクチャ「Coarse-Fine Networks(粗細ネットワーク)」を提案する。従来の動画モデルは、固定された1つ(または少数)の時間分解能で入力を処理するのみであり、フレームの動的選択は行われない。しかし、本研究では、入力に対して複数の時間分解能を動的に処理し、各フレームの重要性を学習によって推定することで、特に時間的アクティビティ局所化の分野において、動画表現の質を大幅に向上させられると主張する。この目的のため、本研究は以下の2つの新規モジュールを提案する:(1) 学習可能な時間的ダウンサンプリング層である「Grid Pool」により粗い特徴を抽出し、(2) 粗い特徴と細かいコンテキストを統合するための空間時間的注意メカニズムである「Multi-stage Fusion」。実験の結果、Charadesを含む公開データセットにおけるアクション検出タスクにおいて、最先端の手法を上回る性能を達成しつつ、計算量およびメモリ使用量を顕著に削減できることを示した。実装コードは以下のURLから公開されている:https://github.com/kkahatapitiya/Coarse-Fine-Networks