HyperAIHyperAI

Command Palette

Search for a command to run...

OpenDAS: التكيف اللفظي المفتوح للتقسيم ثنائي وثلاثي الأبعاد

Gonca Yilmaz Songyou Peng Marc Pollefeys Francis Engelmann Hermann Blum

الملخص

في الآونة الأخيرة، تقدمت نماذج الرؤية-اللغة (VLMs) تقنيات التقطيعمن خلال الانتقال من التقطيع التقليدي لمجموعة مغلقة من فئات الأشياء المحددة مسبقًا إلى التقطيع ذو المفردات المفتوحة (OVS)، مما يسمح للمستخدمين بتقطيعفئات وتصورات جديدة غير موجودة أثناء تدريب نموذج التقطيع.ومع ذلك، يأتي هذا المرونة بمقابل: لا تزال الأساليب المراقبة بالكامل للفئات المغلقةتفوق أساليب OVS في الفئات الأساسية، أي الفئات التي تم تدريبها عليها بشكل صريح. وهذا يعود إلى عدم وجود أقنعة تدريب محاذاة للبكسل لنماذج الرؤية-اللغة (والتي يتم تدريبها على أزواج الصورة-التعليق)، وعدم وجود معرفة خاصة بالمجال، مثل قيادة السيارات ذاتياً. لذلك، نقترح مهمة التكيف ذو المفردات المفتوحة للمجاللإدخال المعرفة الخاصة بالمجال إلى نماذج الرؤية-اللغة مع الحفاظ على طبيعتها ذات المفردات المفتوحة. وبفضل هذا النهج، نحقق أداءً أفضل في الفئات الأساسية والجديدة. الأساليب القائمة لتكيف VLMs تحسن الأداء في الاستفسارات الأساسية (المدربة)، ولكنها لا تستطيع الحفاظ بشكل كامل على قدرات الفئات المفتوحة لنماذج الرؤية-اللغة في الاستفسارات الجديدة. لمعالجة هذا القصور، نجمع بين ضبط الدفع المعتمد على العناصر (prompt tuning) بكفاءة عالية في العناصر والاستراتيجية التدريبية المستندة إلى خسارة الثلاثيات (triplet loss)والتي تعتمد على استفسارات سلبية معاونة. ومن الجدير بالذكر أن نهجنا هو الطريقة الوحيدة المعتمدة على العناisons التي تتخطى باستمرار النموذج الأصلي VLMفي الفئات الجديدة. يمكن دمج نماذج الرؤية-اللغة التي تم تكييفها لدينا بسلاسة في خطوط الأنابيب الحالية لـ OVS، مثل تحسين OVSeg بمقدار +6.0% mIoU على ADE20K للتقطيع ثنائي الأبعاد ذي المفردات المفتوحة، وتحسين OpenMask3D بمقدار +4.1% AP على ScanNet++ Offices للتقطيع ثلاثي الأبعاد ذي المفردات المفتوحة دون أي تغييرات أخرى. صفحة المشروع متاحة على الرابط https://open-das.github.io/.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp