ULIP-2: نحو التدريب المسبق متعدد الوسائط قابل للتوسع للفهم ثلاثي الأبعاد

أظهرت التطورات الحديثة في التدريب المُتعدد الوسائط فعالية واعدة في تعلم التمثيل ثلاثي الأبعاد من خلال محاذاة السمات متعددة الوسائط عبر الأشكال ثلاثية الأبعاد ونسخها ثنائية الأبعاد ووصفها اللغوي. ومع ذلك، فإن الطرق المستخدمة من قبل الأطر الحالية لتجهيز هذه البيانات متعددة الوسائط، وخاصة الوصف اللغوي للأشكال ثلاثية الأبعاد، ليست قابلة للتوسع، كما أن الوصف اللغوي المجمّع ليس متنوعًا. ولحل هذه المشكلة، نقدم ULIP-2، وهي إطار تدريب مُتعدد الوسائط بسيط لكنه فعّال، يستخدم النماذج الكبيرة متعددة الوسائط لتوليد وصف لغوي شامل تلقائيًا للأشكال ثلاثية الأبعاد. يعتمد ULIP-2 فقط على بيانات ثلاثية الأبعاد كمدخل، مما يُلغِي الحاجة إلى أي تسميات يدوية للبيانات ثلاثية الأبعاد، وبالتالي يكون قابلاً للتوسع على مجموعات بيانات كبيرة. كما يحتوي ULIP-2 على هياكل رئيسية مُوسّعة لتحسين تعلم التمثيل متعدد الوسائط. أجرينا تجارب على مجموعتي بيانات ثلاثية الأبعاد الكبيرتين Objaverse وShapeNet، وتم تضخيمهما ببيانات ثلاثية الوسائط تتضمن سحابات نقطية ثلاثية الأبعاد، وصور ثنائية الأبعاد، ونصوص لغوية، لتدريب ULIP-2. أظهرت النتائج أن ULIP-2 يحقق فوائد كبيرة في ثلاث مهام تطبيقية لاحقة: التصنيف ثلاثي الأبعاد بدون تدريب مسبق (zero-shot)، والتصنيف ثلاثي الأبعاد القياسي مع التدريب المخصص، وتوليد وصف ثلاثي الأبعاد (التحويل من ثلاثي الأبعاد إلى لغة). وحقق ULIP-2 أفضل أداء مُسجّل (SOTA) حتى الآن بـ 50.6% (الدرجة الأولى) على Objaverse-LVIS و84.7% (الدرجة الأولى) على ModelNet40 في التصنيف بدون تدريب مسبق. وفي معيار ScanObjectNN للتدريب المخصص القياسي، بلغ ULIP-2 دقة إجمالية قدرها 91.5% باستخدام نموذج صغير يحتوي فقط على 1.4 مليون معلمة. يُبرز ULIP-2 نموذجًا جديدًا للتعلم التمثيلي ثلاثي الأبعاد متعدد الوسائط القابل للتوسع دون الحاجة إلى تسميات بشرية، ويُظهر تحسينات كبيرة مقارنة بالأساليب السابقة. تم إصدار الكود والبيانات على الرابط: https://github.com/salesforce/ULIP.