
要約
構造表現、例えばキーポイントは、ポーズ転送、条件付き画像生成、アニメーション、および3D再構築の分野で広く使用されています。しかし、これらの監督学習には各対象ドメインに対して高コストのアノテーションが必要です。本研究では、2Dキーポイントを直線エッジで連結したグラフを使用して物体の構造と外観を分離する自己監督学習方法を提案します。入力される画像群が同じ物体クラスを示しているという情報のみから、キーポイントの位置とそれらのペア間のエッジ重みを学習します。得られたグラフは解釈可能であり、たとえばAutoLinkは人間の骨格トポロジーを回復することが可能です(人間を示す画像に適用した場合)。我々の主な要素は以下の通りです:i) 入力画像におけるキーポイント位置を予測するエンコーダー、ii) 各画像において同じキーポイントペアを連結する共有グラフとしての潜在変数、iii) 潜在的なグラフエッジ重みとキーポイント位置をソフトかつ微分可能な方法で組み合わせる中間エッジマップ、iv) ランダムにマスクされた画像に対するインペイニング目的関数です。AutoLinkは単純であるにもかかわらず、確立されたキーポイントおよびポーズ推定ベンチマークにおいて既存の自己監督学習手法よりも優れた性能を発揮し、より多様なデータセットでの構造条件付き生成モデルへの道を開きます。プロジェクトウェブサイト: https://xingzhehe.github.io/autolink/.