HyperAIHyperAI

Command Palette

Search for a command to run...

OpenShape: 3D形状表現のオープンワールド理解への拡大

Liu Minghua ; Shi Ruoxi ; Kuang Kaiming ; Zhu Yinhao ; Li Xuanlin ; Han Shizhong ; Cai Hong ; Porikli Fatih ; Su Hao

概要

私たちはOpenShapeを紹介します。これは、テキスト、画像、ポイントクラウドの多モーダル共同表現を学習する方法です。表現の整列のために一般的に使用されている多モーダル対照的学習フレームワークを採用していますが、オープンワールドの3D形状理解を可能にするために3D表現のスケーリングに特に焦点を当てています。これを達成するために、複数の3Dデータセットをアンサンブルすることで訓練データをスケーリングし、ノイジーなテキスト記述を自動的にフィルタリングおよび豊富にするためのいくつかの戦略を提案しています。また、3Dバックボーンネットワークのスケーリングに関する戦略を探求し比較し、より効率的な訓練のために新しいハードネガティブマイニングモジュールを導入しています。OpenShapeはゼロショット3D分類ベンチマークで評価され、オープンワールド認識における優れた能力が示されています。具体的には、1,156カテゴリのObjaverse-LVISベンチマークで46.8%のゼロショット精度を達成しており、既存の方法では10%未満であることを考慮すると非常に高い性能です。さらに、ModelNet40において85.3%の精度を達成しており、以前のゼロショット基準方法よりも20%優れており、完全教師あり方法と同等の性能を発揮しています。また、私たちが学習した埋め込みが広範囲な視覚的概念と意味論的概念(例えばサブカテゴリー、色、形状、スタイル)をエンコードしていることを示しており、細かい粒度でのテキスト-3Dおよび画像-3D相互作用を容易にしています。CLIP埋め込みとの整合性により、私たちが学習した形状表現は市販のCLIPベースモデルと統合でき、ポイントクラウドキャプションやポイントクラウド条件付き画像生成などの様々な応用にも利用できます。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています