نحت التمثيل الشامل ثلاثي الأبعاد في التدريب المسبق المقارن للغة والصورة والنموذج ثلاثي الأبعاد

التعلم التبايني ظهر كنموذج واعد لفهم العالم المفتوح ثلاثي الأبعاد، أي مواءمة تمثيل السحب النقطية إلى فضاءات تمثيل الصور والنصوص بشكل منفصل. في هذا البحث، نقدم MixCon3D، وهو طريقة بسيطة ومعتبرة تهدف إلى تشكيل تمثيل شامل ثلاثي الأبعاد في التعلم التبايني المسبق للغة والصورة والثلاثية الأبعاد. على عكس السحب النقطية فقط، نطور التمثيل الثلاثي للأبعاد على مستوى الكائنات من وجهات نظر مكملة، مثل الصور المرسومة متعددة الزوايا مع السحابة النقطية. ثم يقوم MixCon3D بالتعلم التبايني بين اللغة والثلاثية الأبعاد، مما يصور بشكل شامل الكائنات الحقيقية ثلاثية الأبعاد ويعزز مواءمة النصوص. بالإضافة إلى ذلك، نقوم لأول مرة بدراسة شاملة لمختلف الوصفات التدريبية للنموذج التبايني الثلاثي الأبعاد، مما يساعد في بناء خط أساس صلب بأداء أفضل. أظهرت التجارب الواسعة التي أجريت على ثلاثة مقاييس تمثيلية أن طريقتنا تحسن بشكل كبير على الخط الأساسي، وتتفوق على أداء التقنيات السابقة الأكثر تقدماً في مجموعة بيانات Objaverse-LVIS ذات الـ 1,156 فئة بنسبة 5.7%. يتم إظهار مرونة MixCon3D في التطبيقات مثل استرجاع النصوص إلى ثلاثية الأبعاد وكتابة العناوين للسحب النقطية، مما يؤكد فعاليتها في سيناريوهات متنوعة. يمكن الوصول إلى الشفرة البرمجية من خلال الرابط: https://github.com/UCSC-VLAA/MixCon3D.