2ヶ月前
冗長性削減アテンションを用いた細粒度動画分類
Chen Zhu; Xiao Tan; Feng Zhou; Xiao Liu; Kaiyu Yue; Errui Ding; Yi Ma

要約
微細分類タスクにおいて、動画は静止画像よりも優れた情報源となり得る可能性があります。これは、動画が差別的パターンを含む確率が高いからです。しかし、動画シーケンスには多くの冗長なおよび関連のないフレームが含まれていることがあります。興味のある重要な情報を特定する方法は困難な課題となっています。本論文では、冗長性低減アテンション(Redundancy Reduction Attention: RRA)と呼ばれる新しいネットワーク構造を提案します。この構造は、冗長な特徴チャネルを抑制することで複数の差別的パターンに焦点を当てる学習を行います。具体的には、選択されたフレームの特徴マップ内のすべての特徴ベクトルを空間時間的なソフトアテンションを使用して重み付け和で要約し、その要約に基づいてどのチャネルを抑制または強化するかを学習した非線形変換によって予測します。抑制は、特徴マップの調整と弱い活性化の閾値処理により達成されます。更新された特徴マップは次の反復に使用されます。最後に、複数の要約に基づいて動画が分類されます。提案手法は複数の動画分類データセットで優れた性能を示しています。さらに、微細な動画分類に関する将来の研究のために大規模な動画データセット2つ(YouTube-Birds および YouTube-Cars)を集めました。これらのデータセットは http://www.cs.umd.edu/~chenzhu/fgvc から入手可能です。