
要約
物体カテゴリの構造を自動的に学習することは、コンピュータビジョンにおいて重要な未解決問題の一つである。本論文では、視点変化や物体変形によって引き起こされる画像変形を分解し、そのような視覚効果と一貫してランドマークを検出する深層ニューラルネットワークを学習することにより、物体カテゴリ内のランドマークを発見し学習する新しい非監督手法を提案する。さらに、当手法がカテゴリ内の異なる物体インスタンス間で意味のある対応関係を確立できることを示す。これは明示的にその要件を課すことなく実現できる。我々は、自然物および人工物の様々な物体タイプに対して、方法の質的評価を行った。また、当手法で学習した非監督ランドマークが顔ベンチマークデータセットにおける手動アノテーションされたランドマークを高精度に予測できることも示し、これらのランドマークの回帰にも利用可能であることを確認した。