HyperAIHyperAI

Command Palette

Search for a command to run...

多視点圧縮符号化による3D再構成

Chao-Yuan Wu Justin Johnson Jitendra Malik Christoph Feichtenhofer Georgia Gkioxari

概要

視覚認識の中心的な目標は、単一の画像から物体やシーンを理解することです。2D認識は、大規模学習と汎用表現のおかげで著しい進歩を遂げました。一方、3Dでは、画像に描かれていない遮蔽物が新たな課題となっています。先行研究では、これらの課題を複数の視点からの推論や、希少なCADモデルとカテゴリ固有の事前知識に依存することで克服しようと試みていますが、これらは新しい設定への拡張を妨げています。本研究では、自己監督学習の進歩に触発された汎用的な表現を学習することで、単一視点からの3D再構成を探求します。私たちは、単一の物体または全体のシーンの3Dポイントに対応し、多様なRGB-Dビデオからカテゴリ非依存の大規模訓練を行うシンプルなフレームワークを導入します。私たちのモデルであるマルチビュー圧縮コーディング(Multiview Compressive Coding, MCC)は、入力の外観と形状を圧縮し、3D対応デコーダーに問い合わせることで3D構造を予測するように学習します。MCCの汎用性と効率性により、大規模かつ多様なデータソースから学習でき、DALL・E 2によって想像された新しい物体やiPhoneで撮影された野生環境での物体にも強い汎化性能を持つことが可能となります。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています