ViT-Lens: بدء استكشاف متعدد الأوضاع من خلال رؤى ثلاثية الأبعاد

رغم نجاح وصفات التدريب القائمة على CLIP في نماذج الرؤية واللغة، فإن قابلية توسيعها إلى المزيد من الأصناف (مثل 3D، الصوت، إلخ) محدودة بالبيانات الضخمة التي تكون باهظة الثمن أو حتى غير قابلة للتطبيق بالنسبة للأصناف النادرة. في هذا البحث، نقدم ViT-Lens الذي يسهل التعلم الكفء للتمثيلات المتعددة الأصناف من خلال استشعار أصناف جديدة باستخدام ViT المدرب مسبقًا وتوحيدها في فضاء محدد مسبقًا. بوجه خاص، يتم ضبط العدسة الخاصة بالأصناف لتقديم الإشارات متعددة الأصناف إلى الفضاء المشترك للتمثيل، حيث يتم معالجتها بعد ذلك بواسطة ViT قوي يحمل المعرفة المسبقة بالصور. يتم تحسين التمثيلات متعددة الأصناف المشفرة نحو التوافق مع الفضاء المستقل عن الأصناف والمحدد مسبقًا بواسطة النماذج الأساسية الجاهزة. يمكن أن يكون عدسة مدرب جيدًا مع هيكل ViT قادرًا على العمل كواحد من هذه النماذج الأساسية، مما يشرف على تعلم الأصناف اللاحقة. يقدم ViT-Lens حلًّا موحدًا لتعلم التمثيلات المتزايدة للأصناف بفوائدين جذابتين: (i) الاستغلال الفعال لـ ViT المدرب مسبقًا عبر المهام والحقول بمعدل بيانات كفء؛ (ii) تظهر قدرات جديدة في العمليات اللاحقة للأصناف الجديدة بسبب فضاء التوافق بين الأصناف. نقيم ViT-Lens في سياق 3D كتحقق أولي. في تصنيف 3D بدون تدريب سابق، يحقق ViT-Lens تحسينات كبيرة على أفضل ما تم الوصول إليه سابقًا، حيث يظهر دقة بنسبة 52.0% على Objaverse-LVIS، و87.4% على ModelNet40، و60.6% على ScanObjectNN. بالإضافة إلى ذلك، نمكن الإجابة على أسئلة 3D بدون تدريب سابق بدمج العدسة 3D المدربة بنموذج InstructBLIP دون أي تعديل. سنقوم بإصدار نتائج ViT-Lens لأكثر من صنف في المستقبل القريب.