2ヶ月前

オブジェクトに合わせて、画像ではなく:細かい認識のための一貫した姿勢合わせ表現

Pei Guo; Ryan Farrell
オブジェクトに合わせて、画像ではなく:細かい認識のための一貫した姿勢合わせ表現
要約

姿勢による劇的な外観変動は、細部認識において大きな課題を構成しており、最近の注意機構や二次統計を使用する手法でも十分に対処できていない。現代のCNN(深層畳み込みニューラルネットワーク)は一般的に物体の姿勢に対する明確な理解が欠けており、姿勢と外観が絡み合った状態で混乱することが多い。本論文では、姿勢を合わせた領域の階層から構築される統一された物体表現を提案する。画像軸に合わせた領域ではなく、提案された表現は姿勢を合わせたパッチを使用して物体の姿勢に対する相対的な外観を特徴付け、これらのパッチの特徴は姿勢、スケール、回転の変動に対して頑健である。さらに、姿勢推定を行い、階層的な姿勢を合わせた領域の特徴量を連結して統一された物体表現を作成し、それを分類ネットワークに入力するアルゴリズムを提案する。提案されたアルゴリズムは他の手法を超える性能を示し、広く使用されているCUB-200データセットでは最新技術より約2%向上し、大規模なNABirdsデータセットでは8%以上向上した。このパラダイムの有効性は競合する手法と比較して顕著であり、細部認識におけるさらなる進歩のために姿勢と外観を分離することが極めて重要であることを示唆している。

オブジェクトに合わせて、画像ではなく:細かい認識のための一貫した姿勢合わせ表現 | 最新論文 | HyperAI超神経