2ヶ月前
非監督的な物体ランドマークの構造的表現としての発見
Yuting Zhang; Yijie Guo; Yixin Jin; Yijun Luo; Zhiyuan He; Honglak Lee

要約
深層ニューラルネットワークは豊かな潜在表現を用いて画像をモデル化することができますが、物体カテゴリーの構造を人間が認識可能な形で自然に概念化することはできません。本論文では、教師なしで画像モデリングプロセスにおいて物体の構造を学習する問題に取り組んでいます。我々は、ランドマークを明示的な構造表現として発見するための自己符号化手法を提案します。エンコーディングモジュールはランドマークの座標を出力し、その有効性はランドマークが必要とする特性を反映した制約によって保証されます。デコーディングモジュールは、エンドツーエンド微分可能なフレームワークにおいて、ランドマークを学習可能な入力表現の一部として受け取ります。我々が発見したランドマークは意味的に有意であり、以前の手法で発見されたものよりも手動で注釈付けられたランドマークをより正確に予測できます。また、我々のランドマークの座標は、事前学習済みの深層ニューラルネットワーク表現と相補的な特徴であり、視覚的属性を認識するために役立ちます。さらに、提案手法は自然に教師なしで操作可能なインターフェースを作成し、物体形状や制御可能な構造を持つ画像をデコードすることが可能です。プロジェクトウェブページは http://ytzhang.net/projects/lmdis-rep です。