2ヶ月前

PointLLM: 大規模言語モデルを点群データの理解に活用する

Xu, Runsen ; Wang, Xiaolong ; Wang, Tai ; Chen, Yilun ; Pang, Jiangmiao ; Lin, Dahua
PointLLM: 大規模言語モデルを点群データの理解に活用する
要約

大規模言語モデル(LLMs)の前例のない進歩は、自然言語処理に深い影響を与えていますが、まだ3次元理解の領域を完全に取り入れていません。本論文では、このギャップを埋めるための初期的な試みとしてPointLLMを紹介します。PointLLMは、大規模言語モデルが点群データを理解し、2次元視覚データを超えた新たな道を開くことを可能にします。PointLLMは、人間の指示に基づいて彩色された物体の点群データを理解し、文脈に適切な応答を生成することで、点群データと常識の理解を示しています。具体的には、強力な大規模言語モデルと点群エンコーダーを組み合わせて、幾何学的、外観的、および言語的情報を効果的に統合しています。私たちは66万件の単純な点群-テキスト指示ペアと7万件の複雑な点群-テキスト指示ペアからなる新しいデータセットを集めました。これにより、潜在空間の整合性確認とその後に行う統一モデルへの指示微調整という二段階の学習戦略が可能になりました。PointLLMの知覚能力和外推能力を厳密に評価するために、生成3次元物体分類(Generative 3D Object Classification)と3次元物体キャプショニング(3D Object Captioning)という2つのベンチマークを設定しました。これらの評価は3つの異なる方法で行われます:人間による評価、GPT-4/ChatGPTによる評価、そして従来の指標です。実験結果は、既存の2次元および3次元ベースラインに対してPointLLMが優れた性能を発揮することを示しており、特に人間による評価での物体キャプショニングタスクにおいて50%以上のサンプルで人間アノテーターを超える成果を上げています。コード、データセット、ベンチマークは https://github.com/OpenRobotLab/PointLLM で公開されています。

PointLLM: 大規模言語モデルを点群データの理解に活用する | 最新論文 | HyperAI超神経