
要約
3D構造とカメラの2Dランドマークからの復元は、コンピュータビジョンの分野全体の基礎となっています。従来の手法は、パースペクティブ-n-ポイント(PnP)問題に見られるような特定の剛体物体に限定されていましたが、深層学習のおかげで、ノイズ、遮蔽、パースペクティブ歪みに対して堅牢性を持つ多様な物体クラス(例:C3DPOおよびPAUL)の再構築能力が大幅に拡大しました。しかし、これらの手法はすべて、3Dトレーニングデータ間での対応関係を確立するという基本的な必要性によって制限されてきました。これは、「対応関係」のある3Dデータが豊富にあるアプリケーションへの適用を大幅に制限しています。当方針では、トランスフォーマーの内在的な置換等変性を利用して、各3Dデータインスタンスにおける点数の変動に対処し、遮蔽に耐え、未知のカテゴリにも汎化することが可能です。私たちは2D-3D復元タスクベンチマークにおいて最先端の性能を示しています。当方針はこのような広範な構造クラスで訓練できるため、単純に3次元復元基盤モデル(3D-LFM)と呼びます——この種の最初の一例です。