概要

私たちはOpenShapeを紹介します。これは、テキスト、画像、ポイントクラウドの多モーダル共同表現を学習する方法です。表現の整列のために一般的に使用されている多モーダル対照的学習フレームワークを採用していますが、オープンワールドの3D形状理解を可能にするために3D表現のスケーリングに特に焦点を当てています。これを達成するために、複数の3Dデータセットをアンサンブルすることで訓練データをスケーリングし、ノイジーなテキスト記述を自動的にフィルタリングおよび豊富にするためのいくつかの戦略を提案しています。また、3Dバックボーンネットワークのスケーリングに関する戦略を探求し比較し、より効率的な訓練のために新しいハードネガティブマイニングモジュールを導入しています。OpenShapeはゼロショット3D分類ベンチマークで評価され、オープンワールド認識における優れた能力が示されています。具体的には、1,156カテゴリのObjaverse-LVISベンチマークで46.8%のゼロショット精度を達成しており、既存の方法では10%未満であることを考慮すると非常に高い性能です。さらに、ModelNet40において85.3%の精度を達成しており、以前のゼロショット基準方法よりも20%優れており、完全教師あり方法と同等の性能を発揮しています。また、私たちが学習した埋め込みが広範囲な視覚的概念と意味論的概念（例えばサブカテゴリー、色、形状、スタイル）をエンコードしていることを示しており、細かい粒度でのテキスト-3Dおよび画像-3D相互作用を容易にしています。CLIP埋め込みとの整合性により、私たちが学習した形状表現は市販のCLIPベースモデルと統合でき、ポイントクラウドキャプションやポイントクラウド条件付き画像生成などの様々な応用にも利用できます。

ソースPDF