2ヶ月前
高速と低速の視点:記憶を導いたモバイルビデオオブジェクト検出
Mason Liu; Menglong Zhu; Marie White; Yinxiao Li; Dmitry Kalenichenko

要約
人間の視覚システムは、わずか数ミリ秒続く一回の視点固定によって、複雑な環境の豊かな表現を形成し、全体的な理解に達することができ、これにより物体認識と検出が容易になります。この現象は「シーンの要約(gist)」を認識することとして知られており、関連する事前知識に依存して達成されます。本論文では、コンピュータビジョンシステムにおいてメモリーを使用することで、ビデオストリームにおける物体検出の精度向上だけでなく、計算時間を短縮できるかどうかという類似した問題を取り上げています。従来の特徴抽出器と、シーンの要約(gist)のみを認識する必要がある極めて軽量な特徴抽出器を交互に組み合わせることで、時間的なメモリーが存在する場合に最小限の計算で正確な検出が可能であることを示しています。さらに、メモリーには強化学習アルゴリズムを用いて適応的推論ポリシーを学習するために十分な情報が含まれていることを示しています。当モデルはImagenet VID 2015データセットにおいて携帯端末向け手法の中で最先端の性能を達成しており、Pixel 3スマートフォン上で最大70FPS以上の速度で動作します。