
要約
物体の位置と外観を分離する新しい視覚データ表現を提案します。当該手法は「Deep Latent Particles (DLP)」と名付けられ、視覚入力を低次元の潜在的な「粒子」に分解します。各粒子はその空間的位置と周囲領域の特徴によって記述されます。このような表現の学習を促進するために、VAE(Variational Autoencoder)ベースのアプローチに従い、空間ソフトマックス構造に基づく粒子位置の事前分布と、粒子間のチャムファー距離に着想を得た証拠下限損失の修正版を導入します。私たちは、DLP表現が複数の動的物体から構成されるシーンにおける無教師キーポイント(KP)検出、画像操作、ビデオ予測などの下流タスクに有用であることを示します。さらに、問題に対する確率論的解釈が自然に粒子位置の不確実性推定を提供することを示し、これはモデル選択など他のタスクにも利用可能です。ビデオとコードは以下のURLで公開されています: https://taldatech.github.io/deep-latent-particles-web/