2ヶ月前
多視点圧縮符号化による3D再構成
Chao-Yuan Wu; Justin Johnson; Jitendra Malik; Christoph Feichtenhofer; Georgia Gkioxari

要約
視覚認識の中心的な目標は、単一の画像から物体やシーンを理解することです。2D認識は、大規模学習と汎用表現のおかげで著しい進歩を遂げました。一方、3Dでは、画像に描かれていない遮蔽物が新たな課題となっています。先行研究では、これらの課題を複数の視点からの推論や、希少なCADモデルとカテゴリ固有の事前知識に依存することで克服しようと試みていますが、これらは新しい設定への拡張を妨げています。本研究では、自己監督学習の進歩に触発された汎用的な表現を学習することで、単一視点からの3D再構成を探求します。私たちは、単一の物体または全体のシーンの3Dポイントに対応し、多様なRGB-Dビデオからカテゴリ非依存の大規模訓練を行うシンプルなフレームワークを導入します。私たちのモデルであるマルチビュー圧縮コーディング(Multiview Compressive Coding, MCC)は、入力の外観と形状を圧縮し、3D対応デコーダーに問い合わせることで3D構造を予測するように学習します。MCCの汎用性と効率性により、大規模かつ多様なデータソースから学習でき、DALL・E 2によって想像された新しい物体やiPhoneで撮影された野生環境での物体にも強い汎化性能を持つことが可能となります。