2ヶ月前
GENESIS: オブジェクト中心の潜在表現を用いた生成的シーン推論とサンプリング
Martin Engelcke; Adam R. Kosiorek; Oiwi Parker Jones; Ingmar Posner

要約
生成潜在変数モデルは、ロボティクスと強化学習の分野において有望なツールとして注目を集めています。しかし、これらの領域におけるタスクは通常、個別の物体を扱いますが、最先端の生成モデルの多くは視覚シーンの構成的な性質を明示的に捉えていません。最近の例外としてMONetとIODINEがあり、これらは無監督でシーンを物体に分解します。しかし、それらの基礎となる生成プロセスはコンポーネント間の相互作用を考慮していません。したがって、どちらも新しいシーンを原理に基づいてサンプリングすることはできません。本稿ではGENESIS(Generative Explainer Network with Energy-based Scene Inference)を提案します。これは3D視覚シーンの物体中心的な生成モデルであり、シーンコンポーネント間の関係性を捉えることで、シーンの分解と生成の両方を行える初のモデルです。GENESISは画像に対して空間的なGMM(ガウス混合モデル)をパラメータ化し、物体中心的な潜在変数セットからデコードされます。これらの潜在変数は、順次的かつアマチュアライズされた推論によって導出されるか、オートレグレッシブ事前分布からサンプリングされます。我々はGENESISを複数の公開データセットで訓練し、シーン生成、分解および半教師あり学習における性能を評価しました。