HyperAIHyperAI

Command Palette

Search for a command to run...

MiniGPT-3D: 2D プライオリを使用して 3D ポイントクラウドを効率的にアラインメントする大規模言語モデル

Tang Yuan ; Han Xu ; Li Xianzhi ; Yu Qiao ; Hao Yixue ; Hu Long ; Chen Min

概要

大規模2次元視覚言語モデル(2D-LLMs)は、単純な射影器を用いて大規模言語モデル(LLMs)と画像を橋渡すことで注目を集めています。その成功に触発され、大規模3次元点群言語モデル(3D-LLMs)も点群をLLMsに統合しています。しかし、点群を直接LLMsと合わせるには高額な訓練コストがかかるため、通常A100で数百時間のGPU時間を必要とし、これが3D-LLMsの開発を阻害しています。本論文では、効率的かつ強力な3D-LLMであるMiniGPT-3Dを紹介します。このモデルは、1つのRTX 3090でわずか27時間の訓練時間で複数の最先端(SOTA)結果を達成しています。具体的には、2D-LLMsから得られる2次元の事前知識を使用して3次元点群をLLMsと合わせることを提案しており、これにより2次元と3次元の視覚情報間の類似性を利用できます。また、モダリティアライメントのために段階的に進行する新しい4段階訓練戦略と、特徴量を適応的に効率よく集約するクエリ専門家混合モジュールを導入しています。さらに、パラメータ効率的な微調整手法であるLoRA(Low-Rank Adaptation)とノルム微調整を利用することで、学習可能なパラメータ数は47.8Mに抑えられ、既存手法よりも最大260倍少ないパラメータ数となっています。広範な実験結果から、MiniGPT-3Dは3次元物体分類およびキャプション生成タスクにおいてSOTAを達成しており、特に困難な物体キャプション生成タスクではShapeLLM-13Bに対してGPT-4評価スコアで8.12ポイントの向上が見られました。一方で、ShapeLLM-13Bは8つのA800で合計160時間のGPU時間を必要としています。私たちは初めて効率的な3D-LLMを探求し、コミュニティに新たな洞察を提供しました。コードと重みは以下のURLから入手可能です: https://github.com/TangYuan96/MiniGPT-3D.


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています