2ヶ月前
PointCLIP V2: CLIPとGPTを用いた強力な3Dオープンワールド学習の実現
Zhu, Xiangyang ; Zhang, Renrui ; He, Bowei ; Guo, Ziyu ; Zeng, Ziyao ; Qin, Zipeng ; Zhang, Shanghang ; Gao, Peng

要約
大規模な事前学習モデルは、視覚と言語の両方のタスクにおいて有望なオープンワールド性能を示しています。しかし、これらのモデルが3D点群データに転移する能力はまだ限られており、分類タスクにのみ制約されています。本論文では、まずCLIPとGPTを統合し、ゼロショット3D分類、セグメンテーション、検出の可能性を完全に引き出す統一された3Dオープンワールド学習者であるPointCLIP V2を開発しました。3Dデータを事前に学習した言語知識とより正確に合わせるため、PointCLIP V2には2つの重要な設計が含まれています。視覚的な側面では、形状射影モジュールを通じてCLIPをプロンプトし、より現実的な深度マップを生成することで、投影された点群データと自然画像とのドメインギャップを縮めます。言語的な側面では、GPTモデルをプロンプトして3D特有のテキストを生成し、これをCLIPのテキストエンコーダーへの入力として使用します。3D領域での一切の学習なしで、当手法はゼロショット3D分類において3つのデータセット上でPointCLIPに対してそれぞれ+42.90%、+40.44%、+28.75%の精度向上を達成しました。さらに、V2は単純な方法で少ショット3D分類、ゼロショット3D部品セグメンテーション、および3Dオブジェクト検出へ拡張可能であり、統一された3Dオープンワールド学習における汎化能力を示しています。