HyperAIHyperAI

Command Palette

Search for a command to run...

PLA: فهم المشهد ثلاثي الأبعاد المفتوح بقيادة اللغة

Ding Runyu ; Yang Jihan ; Xue Chuhui ; Zhang Wenqing ; Bai Song ; Qi Xiaojuan

الملخص

فهم المشهد المفتوح يهدف إلى تحديد وتمييز فئات غير مرئية تتجاوز نطاق التسميات المُشَرَّحة. تم تحقيق الاختراق الأخير في فهم الإدراك المفتوح ثنائي الأبعاد بشكل كبير بفضل بيانات الصور النصية المرتبطة على مستوى الإنترنت والتي تحتوي على مفاهيم مفردات غنية. ومع ذلك، لا يمكن نقل هذا النجاح مباشرة إلى السيناريوهات ثلاثية الأبعاد بسبب عدم إمكانية الوصول إلى أزواج البيانات ثلاثية الأبعاد والنصية على نطاق واسع. بهدف حل هذه المشكلة، نقترح استخلاص المعرفة المشفرة في النماذج الأساسية للرؤية واللغة (VL) التي تم تدريبها مسبقًا من خلال تعليق صور متعددة الزوايا من المناظر الطبيعية ثلاثية الأبعاد، مما يسمح بربط صريح بين البيانات الثلاثية الأبعاد والتعليقات الغنية بالمعلومات الدلالية. بالإضافة إلى ذلك، لتعزيز تعلم التمثيل البصري-الدلالي من المستوى الخشن إلى الدقيق من التعليقات، قمنا بتصميم أزواج تعليقات ثلاثية الأبعاد متدرجة، مستفيدين من القيود الهندسية بين المناظر الطبيعية ثلاثية الأبعاد والصور المتعددة الزوايا. أخيرًا، عن طريق استخدام التعلم التضادي، يتعلم النموذج ترميزات واعية باللغة تربط بين البيانات الثلاثية الأبعاد والنصوص لأداء المهام ذات المفردات المفتوحة. طريقة عملنا ليس فقط تتفوق بشكل ملحوظ على الطرق الأساسية بنسبة تتراوح بين 25.8٪ و44.7٪ في تقاطع IoU و14.5٪ و50.4٪ في دقة AP50_{50}50 في تقسيم المعاني والمثيلات ذات المفردات المفتوحة، بل إنها أيضًا تظهر قابلية نقل قوية في مهام نقل المجال بدون أمثلة (zero-shot domain transfer). يمكنكم زيارة موقع المشروع على الرابط التالي: https://dingry.github.io/projects/PLA.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
PLA: فهم المشهد ثلاثي الأبعاد المفتوح بقيادة اللغة | مستندات | HyperAI