
要約
大規模なクラス内変動は、複数の物体特性の変化によって引き起こされます。しかし、画像は外観や形状などの異なる可変要因の重ね合わせだけを示します。したがって、これらの異なる特性を分離し表現することには大きな挑戦があり、特に非教師あり学習の場合にはその難易度が高まります。さらに、大規模な物体の関節運動は柔軟な部位ベースモデルを必要とします。本研究では、カテゴリ内のすべてのインスタンスで一貫して部位を学習することで外観と形状を分離する非教師ありアプローチを提案します。当モデルは、合成変換された画像間の不変性と同変性制約を同時に活用して物体表現を学習します。部位の注釈や物体クラスに関する事前情報が不要であるため、このアプローチは任意のクラスに適用可能です。我々は幅広い物体カテゴリと多様なタスク(姿勢予測、分離された画像合成、ビデオ間翻訳など)において当アプローチを評価しました。結果として、非教師ありキーポイント予測において最先端の手法を上回り、形状と外観転送タスクにおいても教師ありアプローチと比較しても優れた性能を示しました。