2ヶ月前

CLIP2Point: 画像深度事前学習を用いたCLIPから点群分類への転移

Tianyu Huang; Bowen Dong; Yunhan Yang; Xiaoshui Huang; Rynson W.H. Lau; Wanli Ouyang; Wangmeng Zuo
CLIP2Point: 画像深度事前学習を用いたCLIPから点群分類への転移
要約

3次元視覚と言語の事前学習は、訓練データの制限により未だ発展途上である。最近の研究では、ビジョン・ランゲージの事前学習モデルを3次元視覚に転用する試みがなされている。PointCLIPは、点群データを多視点深度マップに変換し、形状分類のためにCLIPを採用している。しかし、その性能はレンダリングされた深度マップと画像間のドメインギャップや深度分布の多様性によって制約されている。この問題に対処するために、我々はコントラスティブ学習による画像-深度の事前学習方法であるCLIP2Pointを提案し、CLIPを3次元領域に転用し、点群分類に適応させる。新しい深度レンダリング設定を導入し、より良い視覚効果を得られるようにした後、ShapeNetから52,460組の画像と深度マップを作成して事前学習に使用した。CLIP2Pointの事前学習スキームは、クロスモーダル学習とイントラモーダル学習を組み合わせている。クロスモーダル学習では、深度特徴量が表現的な視覚的および言語的特徴量を捉えることを強制し、イントラモーダル学習では深度集約の不変性を向上させる。さらに、我々は新規少ショット学習向けに簡素化されたアダプターを持つデュアルパス構造(Dual-Path Adapter, DPA)モジュールを提案する。デュアルパス構造によりCLIPとCLIP2Pointを併用でき、簡素化されたアダプターはポストサーチなしで少ショットタスクに適応できる。実験結果から、CLIP2PointがCLIPの知識を3次元視覚へ効果的に転用できることを示している。我々のCLIP2PointはPointCLIPや他の自己教師あり3次元ネットワークよりも優れており、ゼロショットおよび少ショット分類において最先端の結果を達成している。

CLIP2Point: 画像深度事前学習を用いたCLIPから点群分類への転移 | 最新論文 | HyperAI超神経