3D-LLM: إدخال العالم ثلاثي الأبعاد في نماذج اللغة الكبيرة

تم إثبات أن النماذج اللغوية الكبيرة (LLMs) ونماذج الرؤية واللغة (VLMs) تتفوق في العديد من المهام، مثل الاستدلال بحس السليم. رغم قوة هذه النماذج، فإنها ليست متأصلة في العالم الفيزيائي ثلاثي الأبعاد، الذي يشمل مفاهيم أكثر غنىً مثل العلاقات المكانية، القدرات العملية، الفيزياء، التخطيط وغيرها. في هذا العمل، نقترح حقن العالم ثلاثي الأبعاد في النماذج اللغوية الكبيرة وإدخال عائلة جديدة تمامًا من نماذج 3D-LLMs. بشكل خاص، يمكن لنماذج 3D-LLMs أن تأخذ السحب النقطية ثلاثية الأبعاد وميزاتها كمدخلات وتقوم بمجموعة متنوعة من المهام ذات الصلة بالثلاثية الأبعاد، بما في ذلك الوصف النصي، الوصف الكثيف، الإجابة على أسئلة ثلاثية الأبعاد، تحليل المهام، التأصيل الثلاثي الأبعاد، الحوار المساعد بالثلاثية الأبعاد، التنقل وغيرها. باستخدام ثلاثة أنواع من آليات الدفع التي صممناها، تمكنا من جمع أكثر من 300 ألف بيانات لغوية ثلاثية الأبعاد تغطي هذه المهام.لتدريب نماذج 3D-LLMs بكفاءة عالية، نستفيد أولاً من مستخرج الخصائص الثلاثية الأبعاد الذي يحصل على خصائص ثلاثية الأبعاد من الصور المتعددة الزوايا المرسومة. ثم نستخدم النماذج ثنائية الأبعاد VLMs كأساسيات لتدريب نماذج 3D-LLMs الخاصة بنا. عن طريق تقديم آلية تحديد الموقع الثلاثي الأبعاد (3D localization mechanism)، يمكن لنماذج 3D-LLMs أن تلتقط المعلومات المكانية الثلاثية الأبعاد بشكل أفضل. أظهرت التجارب على ScanQA أن نموذجنا يتفوق بشكل كبير على خطوط الأساس الأكثر تقدمًا حاليًا (مثل زيادة درجة BLEU-1 بنسبة 9٪). بالإضافة إلى ذلك، أظهرت التجارب على مجموعات البيانات الخاصة بنا للوصف الثلاثي الأبعاد وتحليل المهام والحوار المساعد بالثلاثية الأبعاد أن نموذجنا يتفوق على النماذج ثنائية الأبعاد VLMs. كما تبين الأمثلة النوعية أيضًا أن نموذجنا قادر على تنفيذ مهام أكثر خارج نطاق النماذج اللغوية الكبيرة الحالية والنماذج ثنائية الأبعاض VLMs.صفحة المشروع: https://vis-www.cs.umass.edu/3dllm/.