PonderV2: 3D ファウンデーションモデルの道を拓く普遍的な事前学習パラダイム

多数のNLP(自然言語処理)や2Dビジョンの基盤モデルと対照的に、3D基盤モデルを学習することは著しく大きな課題を伴います。これは主に、データの固有の変動性と下流タスクの多様性によるものです。本論文では、効率的な3D表現の獲得を容易にする新しい普遍的な3D事前学習フレームワークを提案します。これにより、3D基盤モデルへの道が開かれます。情報量豊富な3D特徴は、現実的な画像をレンダリングするために利用できる豊かな幾何学的および外観の手がかりをエンコードすべきであることを考慮し、微分可能なニューラルレンダリングによって3D表現を学習することを提案します。我々は、設計された体積型ニューラルレンダラーを使用して、レンダリングされた画像と実際の画像との比較により3Dバックボーンを訓練します。特に注目すべきは、我々のアプローチが学習した3Dエンコーダーを様々な下流タスクにシームレスに統合できることです。これらのタスクは、3D検出やセグメンテーションなどの高レベルな課題だけでなく、3D再構築や画像合成などの低レベルな目的も含み、屋内と屋外の両方の状況に対応しています。さらに、提案手法を使用して2Dバックボーンを事前学習する能力についても説明しており、従来の事前学習方法よりも大幅に優れた結果を得ています。PonderV2は初めて11つの屋内外ベンチマークで最先端の性能を達成し、その有効性が示されています。コードとモデルはhttps://github.com/OpenGVLab/PonderV2で入手可能です。この翻訳は上記の要件に基づいて作成されました。専門用語や技術概念については一般的な日本語訳を使用し、文章構造も日本語読者にとって自然に理解できるように最適化しました。また、「PonderV2」のような特定の人名や機構名については原文ママを使用しています。