2ヶ月前

Uni3D: 大規模な統一3D表現の探求

Zhou, Junsheng ; Wang, Jinsheng ; Ma, Baorui ; Liu, Yu-Shen ; Huang, Tiejun ; Wang, Xinlong
Uni3D: 大規模な統一3D表現の探求
要約

過去数年間、画像やテキストの表現を拡大する研究が広範に進められ、視覚と言語の学習において革命をもたらしました。しかし、3Dオブジェクトやシーンのスケーラブルな表現については比較的未開拓の領域です。本研究では、大規模な統一3D表現を探索するための3D基盤モデルであるUni3Dを提案します。Uni3Dは、2D初期化されたViT(Vision Transformer)を使用し、エンドツーエンドで事前学習することで3D点群特徴量を画像-テキスト対応特徴量と合わせます。この単純なアーキテクチャと前置タスクにより、Uni3Dは豊富な2D事前学習モデルを初期化に利用し、画像-テキスト対応モデルを目標として設定することで、2Dモデルとスケールアップ戦略の大きな潜在能力を3D世界に解き放ちます。私たちは効率的にUni3Dを10億パラメータまで拡大し、ゼロショット分類、ファウショット分類、オープンワールド理解、部品セグメンテーションなど幅広い3Dタスクで新しい記録を樹立しました。また、強力なUni3D表現が野生環境での3Dペイントや検索などのアプリケーションも可能にすることが示されています。私たちは、Uni3Dが3次元領域における表現のスケーリングアップと効率性を探求する新たな方向性を提供すると考えています。

Uni3D: 大規模な統一3D表現の探求 | 最新論文 | HyperAI超神経