HyperAIHyperAI
منذ 2 أشهر

OpenDAS: التكيف اللفظي المفتوح للتقسيم ثنائي وثلاثي الأبعاد

Yilmaz, Gonca ; Peng, Songyou ; Pollefeys, Marc ; Engelmann, Francis ; Blum, Hermann
OpenDAS: التكيف اللفظي المفتوح للتقسيم ثنائي وثلاثي الأبعاد
الملخص

في الآونة الأخيرة، تقدمت نماذج الرؤية-اللغة (VLMs) تقنيات التقطيعمن خلال الانتقال من التقطيع التقليدي لمجموعة مغلقة من فئات الأشياء المحددة مسبقًا إلى التقطيع ذو المفردات المفتوحة (OVS)، مما يسمح للمستخدمين بتقطيعفئات وتصورات جديدة غير موجودة أثناء تدريب نموذج التقطيع.ومع ذلك، يأتي هذا المرونة بمقابل: لا تزال الأساليب المراقبة بالكامل للفئات المغلقةتفوق أساليب OVS في الفئات الأساسية، أي الفئات التي تم تدريبها عليها بشكل صريح. وهذا يعود إلى عدم وجود أقنعة تدريب محاذاة للبكسل لنماذج الرؤية-اللغة (والتي يتم تدريبها على أزواج الصورة-التعليق)، وعدم وجود معرفة خاصة بالمجال، مثل قيادة السيارات ذاتياً. لذلك، نقترح مهمة التكيف ذو المفردات المفتوحة للمجاللإدخال المعرفة الخاصة بالمجال إلى نماذج الرؤية-اللغة مع الحفاظ على طبيعتها ذات المفردات المفتوحة. وبفضل هذا النهج، نحقق أداءً أفضل في الفئات الأساسية والجديدة. الأساليب القائمة لتكيف VLMs تحسن الأداء في الاستفسارات الأساسية (المدربة)، ولكنها لا تستطيع الحفاظ بشكل كامل على قدرات الفئات المفتوحة لنماذج الرؤية-اللغة في الاستفسارات الجديدة. لمعالجة هذا القصور، نجمع بين ضبط الدفع المعتمد على العناصر (prompt tuning) بكفاءة عالية في العناصر والاستراتيجية التدريبية المستندة إلى خسارة الثلاثيات (triplet loss)والتي تعتمد على استفسارات سلبية معاونة. ومن الجدير بالذكر أن نهجنا هو الطريقة الوحيدة المعتمدة على العناisons التي تتخطى باستمرار النموذج الأصلي VLMفي الفئات الجديدة. يمكن دمج نماذج الرؤية-اللغة التي تم تكييفها لدينا بسلاسة في خطوط الأنابيب الحالية لـ OVS، مثل تحسين OVSeg بمقدار +6.0% mIoU على ADE20K للتقطيع ثنائي الأبعاد ذي المفردات المفتوحة، وتحسين OpenMask3D بمقدار +4.1% AP على ScanNet++ Offices للتقطيع ثلاثي الأبعاد ذي المفردات المفتوحة دون أي تغييرات أخرى. صفحة المشروع متاحة على الرابط https://open-das.github.io/.

OpenDAS: التكيف اللفظي المفتوح للتقسيم ثنائي وثلاثي الأبعاد | أحدث الأوراق البحثية | HyperAI