2ヶ月前

ULIP: 言語、画像、およびポイントクラウドの統一表現を学習して3D理解を実現する

Xue, Le ; Gao, Mingfei ; Xing, Chen ; Martín-Martín, Roberto ; Wu, Jiajun ; Xiong, Caiming ; Xu, Ran ; Niebles, Juan Carlos ; Savarese, Silvio
ULIP: 言語、画像、およびポイントクラウドの統一表現を学習して3D理解を実現する
要約

現在の最先端の3Dモデルの認識能力は、アノテーション付きデータが少ないデータセットと事前に定義されたカテゴリのセットによって制限されています。2D分野では、最近の進歩により、他のモダリティ(言語など)からの知識を活用することで、同様の問題が大幅に軽減できることが示されています。この点に着想を得て、3Dモダリティにおいてもマルチモーダル情報を利用することが有望であり、制約のあるデータ環境下での3D理解の向上につながる可能性がありますが、この研究領域はまだ十分に研究されていません。そこで、私たちはULIPを導入します。ULIPは、画像、テキスト、3Dポイントクラウドからなるオブジェクトトリプレットを使用して前学習を行うことで、これら3つのモダリティの統合表現を学習します。訓練用トリプレットの不足を克服するために、ULIPは大量の画像-テキストペアで学習し、共通の視覚的および文章的空间を既に獲得している事前学習済みのビジョン-ランゲージモデルを利用します。その後、ULIPは少量の自動生成されたトリプレットを使用して、共通の画像-テキスト空間と整合性のある3D表現空間を学習します。ULIPは3Dバックボーンネットワークに依存せず、任意の3Dアーキテクチャに簡単に統合できます。実験結果によると、ShapeNet55で私たちのフレームワークを使用して単純に前学習を行うだけで、ULIPは複数の最近の3Dバックボーンモデルの性能を効果的に向上させています。これにより、ModelNet40とScanObjectNNにおける標準的な3D分類とゼロショット3D分類で最先端レベルの性能を達成しています。また、ScanObjectNNでの3D分類においてPointMLPの性能を約3%向上させることにも成功しており、ModelNet40でのゼロショット3D分類におけるトップ1精度ではPointCLIPよりも28.8%優れています。私たちが開発したコードと事前学習済みモデルはhttps://github.com/salesforce/ULIPで公開されています。

ULIP: 言語、画像、およびポイントクラウドの統一表現を学習して3D理解を実現する | 最新論文 | HyperAI超神経