2ヶ月前
Point-Bind & Point-LLM: ポイントクラウドをマルチモーダルに合わせて3D理解、生成、および指示の追従を行う
Guo, Ziyu ; Zhang, Renrui ; Zhu, Xiangyang ; Tang, Yiwen ; Ma, Xianzheng ; Han, Jiaming ; Chen, Kexin ; Gao, Peng ; Li, Xianzhi ; Li, Hongsheng ; Heng, Pheng-Ann

要約
Point-Bindの紹介:これは3Dマルチモーダルモデルで、点群データを2D画像、言語、音声、および動画と合わせます。ImageBindのガイダンスのもと、3Dとマルチモーダル間の共通埋め込み空間を構築し、any-to-3D生成、3D埋め込み算術、3Dオープンワールド理解など、多くの有望な応用が可能となります。さらに、Point-LLMを提案します。これは初めて3Dマルチモーダル指示に従う3D大規模言語モデル(LLM)です。パラメータ効率的な微調整技術により、Point-LLMは事前学習済みのLLM(例:LLaMA)にPoint-Bindの意味論を注入します。これらのモデルには3D指示データが不要ですが、優れた3Dおよびマルチモーダルの質問応答能力を示します。当研究がコミュニティに対して3D点群データをマルチモーダル応用に拡張するための一助となることを期待しています。コードは以下のURLから入手可能です:https://github.com/ZiyuGuo99/Point-Bind_Point-LLM。