
要約
人間は動画の一部において物体をどのように認識するのか?単一フレームの品質が低下している場合、そのフレーム内の情報のみに依存して遮蔽された物体を特定することは困難である。本研究では、人間が動画中の物体を認識する際に重要な二つの手がかりが存在すると主張する。すなわち、グローバルな意味的情報(global semantic information)とローカルな位置情報(local localization information)である。近年、多くの手法が自己注意機構(self-attention mechanisms)を用いて、キーフレームの特徴量をグローバルな意味的情報またはローカルな位置情報によって強化している。本論文では、グローバル情報とローカル情報を両方を包括的に考慮した初の試みとして、メモリ強化型グローバル-ローカル集約(Memory Enhanced Global-Local Aggregation: MEGA)ネットワークを提案する。さらに、新しく設計された精密な長距離メモリ(Long Range Memory: LRM)モジュールによって、本手法は従来の方法よりもはるかに多くの情報をキーフレームがアクセス可能にする。この二つの情報源によって強化された本手法は、ImageNet VIDデータセットにおいて最先端の性能を達成した。コードは以下のURLから入手可能である:\url{https://github.com/Scalsol/mega.pytorch}。