17日前
INFERNO:教師なし環境下におけるオブジェクト中心の3Dシーン表現の推論
{Aaron Courville, Nicolas Ballas, Lluis Castrejon}

要約
我々は、アノテーションに依存せずに視覚シーンのオブジェクト中心表現を推定する手法「INFERNO」を提案する。本手法は、シーンを複数のオブジェクトに分解する能力を学習し、各オブジェクトに対して形状、外観、3Dポーズを分離した構造化された表現を獲得する。この構造を強制するために、近年のニューラル3Dレンダリングの進展を活用する。各オブジェクト表現は局所的なニューラルレンダランス場(neural radiance field)として定義され、微分可能なレンダリングプロセスを通じてシーンの2Dビューを生成する。その後、入力と対応するレンダリングされたシーンとの間の再構成誤差を最小化するようにモデルを訓練する。実証的に、INFERNOが教師なし状態でシーン内のオブジェクトを発見できることを示す。また、推定されたシーンに対して操作を加え、レンダリング出力における対応する変化を示すことで、学習された表現の解釈可能性を検証する。最後に、CATERデータセットを用いた視覚的推論タスクにおいて、本手法が得られる3Dオブジェクト表現の実用性を示す。