HyperAIHyperAI

Command Palette

Search for a command to run...

PointCLIP: CLIPを用いた点群理解

Renrui Zhang Ziyu Guo Wei Zhang Kunchang Li Xupeng Miao Bin Cui Yu Qiao Peng Gao Hongsheng Li

概要

最近、コントラスティブ視覚言語事前学習(Contrastive Vision-Language Pre-training: CLIP)を用いたゼロショットおよびファーソット学習は、オープンボキャブラリ設定における2D視覚認識において画期的な性能を示しています。しかし、大規模な2D画像-テキストペアで事前学習されたCLIPが3D認識に一般化できるかどうかについては、まだ十分に研究されていません。本論文では、PointCLIPを提案することで、そのような設定が可能であることを確認しました。PointCLIPは、CLIPで符号化された点群と3Dカテゴリのテキストとの間で対応付けを行います。具体的には、点群をレンダリングせずに多視点深度マップに射影し、視点ごとのゼロショット予測を集約して2Dから3Dへの知識転送を実現します。さらに、グローバル特徴量の抽出を改善し、3Dから学習したファーソット知識を2Dで事前学習されたCLIPに適応的に融合するためのインタビュー・アダプタを設計しました。ファーソット設定において軽量なアダプタのみ微調整を行うことで、PointCLIPの性能は大幅に向上します。また、PointCLIPと古典的な3D教師ありネットワークとの相補性も観察されました。単純なアンサンブルにより、PointCLIPはベースラインの性能を向上させ、さらには最先端モデルを超えることが可能です。したがって、低リソースコストとデータ体制下での効果的な3D点群理解のために、PointCLIPは有望な代替手段となります。広く使用されているModelNet10, ModelNet40および挑戦的なScanObjectNNに対して徹底的な実験を行い、PointCLIPの有効性を示しました。コードは https://github.com/ZrrSkywalker/PointCLIP で公開されています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています