2ヶ月前
対照的言語-画像-3D事前学習における包括的な3D表現の形成
Yipeng Gao; Zeyu Wang; Wei-Shi Zheng; Cihang Xie; Yuyin Zhou

要約
コントラスティブ学習は、3Dオープンワールド理解の有望なパラダイムとして注目を集めています。すなわち、点群表現を個別に画像とテキストの埋め込み空間に合わせることです。本論文では、MixCon3Dという単純かつ効果的な方法を紹介します。この方法は、コントラスティブ言語-画像-3D事前学習において全体的な3D表現を形成することを目指しています。点群のみに対応するものとは異なり、補完的な視点から3Dオブジェクトレベルの表現を開発します。例えば、点群と共に多視点レンダリングされた画像を使用します。その後、MixCon3Dは言語-3Dコントラスティブ学習を行い、現実世界の3Dオブジェクトを包括的に描写し、テキストの対応付けを強化します。さらに、我々は初めて3Dコントラスティブ学習パラダイムにおける様々な訓練レシピを徹底的に調査し、性能が向上した堅固なベースラインを構築しました。代表的な3つのベンチマークで行われた広範な実験により、当手法がベースラインに対して大幅に改善され、特に難易度の高い1,156カテゴリのObjaverse-LVISデータセットにおいて従来の最先端性能を超える5.7%の向上が示されました。MixCon3Dの汎用性は、テキストから3Dへの検索や点群キャプショニングなどのアプリケーションで示されており、多様な状況での有効性がさらに証明されています。コードはhttps://github.com/UCSC-VLAA/MixCon3D で利用可能です。