
最近、ビジョン言語モデル(Vision-Language Models: VLMs)を使用して3D点群と画像-テキスト情報のアライメントを行うオープンワールド3D表現学習手法が、優れた3Dゼロショット性能を示しています。しかし、このアライメントに使用されるCADレンダリング画像は現実感やテクスチャの多様性に欠けていることが多く、アライメントの堅牢性が損なわれることがあります。さらに、3Dと2D事前学習データセット間のデータ量の差異は、VLMの表現能力を効果的に3D学習に転送するための戦略の必要性を強調しています。本論文では、OpenDlignという新しいオープンワールド3Dモデルを提案します。OpenDlignは、拡散モデルから生成された深度アライメント画像を使用することで堅牢なマルチモーダルアライメントを実現します。これらの画像は、拡散モデルの確率的な性質によりCADレンダリングよりも高いテクスチャ多様性を持っています。深度マップ投影パイプラインの改良と深度特化プロンプト設計によって、OpenDlignは事前学習されたVLMの豊富な知識を活用し、パラメータ数600万程度で限定的なShapeNetデータセット上での微調整を通じて3D表現学習を行います。我々の実験結果によると、OpenDlignは限られたパラメータ数での微調整にもかかわらず、多様な3Dタスクにおいて高いゼロショットおよびファーソット性能を達成しています。ゼロショット分類においては、ModelNet40で従来モデルを8.0%上回り、OmniObject3Dでは16.4%上回る性能を示しました。また、深度アライメント画像を使用したマルチモーダルアライメントは一貫して他の最先端モデルの性能向上にも寄与することが確認されています。