17日前

動画オブジェクト検出のためのアテンション誘導メモリを備えた動画スパーストランスフォーマー

{Akihiro Sugimoto, Masato Fujitake}
要約

動画内の物体を検出すること、すなわち動画物体検出(Video Object Detection, VOD)は、物体の外観が時間とともに変化するため、検出エラーが生じやすいという課題を抱えている。近年の研究では、隣接フレームからの特徴を統合することで、特定フレームの外観劣化を補うアプローチが注目されている。さらに、複数フレームにわたる外観劣化に対処するため、遠方フレームを活用する手法も提案されている。しかし、遠方フレームでは物体の位置が大きく変化する可能性があるため、位置に依存しない物体候補領域の特徴のみを用いることが一般的である。しかしながら、こうした手法は物体候補領域の検出性能に依存しており、外観劣化が顕著な場合に実用性に欠ける。本研究では、物体候補領域検出の前段階で特徴を要素単位で強化する手法を提案し、注意機構を用いたメモリを備えた「Video Sparse Transformer with Attention-guided Memory(VSTAM)」を構築した。さらに、要素単位の特徴を疎に統合することで、処理時間およびメモリコストを削減するアプローチを導入した。また、特徴統合の利用状況に基づいた外部メモリ更新戦略を導入し、長期間にわたる情報を効果的に保持する仕組みを実現した。実験の結果、ImageNet VIDおよびUA-DETRACデータセットにおいて、ベースラインに対してそれぞれ8.3%および11.1%の精度向上を達成した。本手法は、広く用いられるVODデータセットにおいて、最先端の手法と比較しても優れた性能を示した。