MiniGPT-3D: مواءمة كتل النقاط ثلاثية الأبعاد بكفاءة باستخدام نماذج اللغة الكبيرة ذات الأولويات ثنائية الأبعاد

النماذج المرئية-اللغوية ثنائية الأبعاد الكبيرة (2D-LLMs) حازت على اهتمام كبير من خلال ربط نماذج اللغة الكبيرة (LLMs) بالصور باستخدام مُسَيِّر بسيط (projector). مستوحاةً من نجاحها، النماذج المرئية-اللغوية ثلاثية الأبعاد الكبيرة (3D-LLMs) تدمج السحب النقطية في LLMs أيضًا. ومع ذلك، فإن محاذاة السحب النقطية مباشرة مع LLM تتطلب تكاليف تدريب باهظة، عادةً ما تكون بمئات ساعات الوحدات المعالجة الرسومية (GPU-hours) على أجهزة A100، مما يعرقل تطور 3D-LLMs. في هذا البحث، نقدم MiniGPT-3D، وهو نموذج مرئي-لغوي ثلاثي الأبعاد فعال وقوي يحقق العديد من أفضل النتائج الحالية (SOTA) بينما يتم تدريبه لمدة 27 ساعة فقط على وحدة RTX 3090. بشكل خاص، نقترح استخدام مُسَيِّرات ثنائية الأبعاد من 2D-LLMs لمحاذاة السحب النقطية ثلاثية الأبعاد مع LLMs، مما يمكننا من الاستفادة من التشابه بين المعلومات المرئية ثنائية وثلاثية الأبعاد. نقدم استراتيجية تدريب جديدة تتكون من أربع مراحل لمحاذاة الوسائط بطريقة متدرجة، بالإضافة إلى وحدة خبراء الاستعلامات المختلطة لتجميع الخصائص بفعالية عالية وبشكل متكيف. علاوة على ذلك، نستخدم طرق التعديل الدقيق الفعالة في المعلمات مثل LoRA والتعديل الدقيق للقياس القياسي (Norm fine-tuning)، مما يؤدي إلى وجود 47.8 مليون معلمة قابلة للتعلم فقط، وهي أقل بمقدار يصل إلى 260 مرة من الطرق الموجودة حاليًا. تظهر التجارب الواسعة أن MiniGPT-3D يحقق أفضل النتائج الحالية في مهمتي تصنيف الأجسام ثلاثية الأبعاد وإضافة التسميات التوضيحية لها، مع تكاليف تدريب أرخص بكثير. بشكل لافت للنظر، حقق MiniGPT-3D زيادة قدرها 8.12 نقطة في درجة التقييم الخاصة بـ GPT-4 لمهمة إضافة التسميات التوضيحية للأجسام الصعبة مقارنةً بـ ShapeLLM-13B، بينما تستغرق الأخيرة 160 ساعة معالجة GPU إجمالية على ثماني وحدات A800. نحن أول من يستكشف كفاءة 3D-LLM، مما يقدم رؤى جديدة للمجتمع العلمي. يمكن الحصول على الشفرة البرمجية والأوزان من الرابط التالي: https://github.com/TangYuan96/MiniGPT-3D.