ShapeLLM: فهم كائنات 3D الشاملة للتفاعل المادي

يقدم هذا البحث نموذج ShapeLLM، وهو أول نموذج لغوي كبير متعدد الوسائط ثلاثي الأبعاد (3D Multimodal Large Language Model - LLM) مصمم للتفاعل المادي، مستكشفًا فهمًا شاملًا للأجسام ثلاثية الأبعاد باستخدام السحب النقطية ثلاثية الأبعاد واللغات. تم بناء ShapeLLM على أساس مرمّز ثلاثي الأبعاد محسّن من خلال توسيع ReCon إلى ReCon++، مما يستفيد من تقطير الصور متعددة الزوايا لفهم الهندسة بشكل أفضل. من خلال استخدام ReCon++ كمرمّز إدخال للسحب النقطية ثلاثية الأبعاد في نماذج LLM، تم تدريب ShapeLLM على بيانات تعليمية مبنية واختباره على مقاييسنا الجديدة التي أعدتها يد الإنسان، وهي 3D MM-Vet. حقق كل من ReCon++ وShapeLLM أداءً رائدًا في فهم الهندسة ثلاثية الأبعاد ومهمات التفاعل الثلاثي الأبعاد الموحدة باللغة، مثل التأصيل البصري المادي. صفحة المشروع: https://qizekun.github.io/shapellm/