Command Palette
Search for a command to run...
DAFA:注意機構に基づく動画オブジェクト検出における多様性認識型特徴集約
DAFA:注意機構に基づく動画オブジェクト検出における多様性認識型特徴集約
Ki-Seok Chung Si-Dong Roh
概要
我々は、シンプルでありながら効果的な外部メモリ管理アルゴリズムを用いた注目メカニズムに基づく動画オブジェクト検出のためのフレームワークを提案する。動画オブジェクト検出タスクにおいて、注目メカニズムは隣接フレームを活用してキーフレームの特徴量を豊かにするために採用されている。近年のいくつかの研究では、フレームレベルの先入れ先出し(FIFO)メモリを用いて動画全体のグローバルな情報を収集しているが、このようなメモリ構造は情報収集効率が低く、結果として注目性能の低下と高い計算コストを引き起こす問題がある。この課題を解決するため、本研究では「多様性認識型特徴集約(Diversity-aware Feature Aggregation: DAFA)」と呼ばれる新しい手法を提案する。他の手法がメモリ容量を拡張せずに十分な特徴情報を保持できないのに対し、DAFAは単純なユークリッド距離に基づくメトリクスを用いることで、冗長性を回避しつつ、多様な特徴を効率的に収集する。ImageNet VIDデータセットにおける実験結果から、グローバル注目を備えた軽量モデルがResNet-101をバックボーンとして83.5 mAPを達成し、最も高い精度を有する既存手法と比較して最小の実行時間で性能を上回ることが示された。グローバルおよびローカル注目ステージを組み合わせた本手法は、それぞれResNet-101とResNeXt-101を用いて84.5 mAPおよび85.9 mAPを達成し、追加の後処理手法を必要とせずに最先端の性能を実現した。