HyperAIHyperAI
منذ 2 أشهر

ShapeLLM: فهم كائنات 3D الشاملة للتفاعل المادي

Qi, Zekun ; Dong, Runpei ; Zhang, Shaochen ; Geng, Haoran ; Han, Chunrui ; Ge, Zheng ; Yi, Li ; Ma, Kaisheng
ShapeLLM: فهم كائنات 3D الشاملة للتفاعل المادي
الملخص

يقدم هذا البحث نموذج ShapeLLM، وهو أول نموذج لغوي كبير متعدد الوسائط ثلاثي الأبعاد (3D Multimodal Large Language Model - LLM) مصمم للتفاعل المادي، مستكشفًا فهمًا شاملًا للأجسام ثلاثية الأبعاد باستخدام السحب النقطية ثلاثية الأبعاد واللغات. تم بناء ShapeLLM على أساس مرمّز ثلاثي الأبعاد محسّن من خلال توسيع ReCon إلى ReCon++، مما يستفيد من تقطير الصور متعددة الزوايا لفهم الهندسة بشكل أفضل. من خلال استخدام ReCon++ كمرمّز إدخال للسحب النقطية ثلاثية الأبعاد في نماذج LLM، تم تدريب ShapeLLM على بيانات تعليمية مبنية واختباره على مقاييسنا الجديدة التي أعدتها يد الإنسان، وهي 3D MM-Vet. حقق كل من ReCon++ وShapeLLM أداءً رائدًا في فهم الهندسة ثلاثية الأبعاد ومهمات التفاعل الثلاثي الأبعاد الموحدة باللغة، مثل التأصيل البصري المادي. صفحة المشروع: https://qizekun.github.io/shapellm/

ShapeLLM: فهم كائنات 3D الشاملة للتفاعل المادي | أحدث الأوراق البحثية | HyperAI