PLA: فهم المشهد ثلاثي الأبعاد المفتوح بقيادة اللغة

فهم المشهد المفتوح يهدف إلى تحديد وتمييز فئات غير مرئية تتجاوز نطاق التسميات المُشَرَّحة. تم تحقيق الاختراق الأخير في فهم الإدراك المفتوح ثنائي الأبعاد بشكل كبير بفضل بيانات الصور النصية المرتبطة على مستوى الإنترنت والتي تحتوي على مفاهيم مفردات غنية. ومع ذلك، لا يمكن نقل هذا النجاح مباشرة إلى السيناريوهات ثلاثية الأبعاد بسبب عدم إمكانية الوصول إلى أزواج البيانات ثلاثية الأبعاد والنصية على نطاق واسع. بهدف حل هذه المشكلة، نقترح استخلاص المعرفة المشفرة في النماذج الأساسية للرؤية واللغة (VL) التي تم تدريبها مسبقًا من خلال تعليق صور متعددة الزوايا من المناظر الطبيعية ثلاثية الأبعاد، مما يسمح بربط صريح بين البيانات الثلاثية الأبعاد والتعليقات الغنية بالمعلومات الدلالية. بالإضافة إلى ذلك، لتعزيز تعلم التمثيل البصري-الدلالي من المستوى الخشن إلى الدقيق من التعليقات، قمنا بتصميم أزواج تعليقات ثلاثية الأبعاد متدرجة، مستفيدين من القيود الهندسية بين المناظر الطبيعية ثلاثية الأبعاد والصور المتعددة الزوايا. أخيرًا، عن طريق استخدام التعلم التضادي، يتعلم النموذج ترميزات واعية باللغة تربط بين البيانات الثلاثية الأبعاد والنصوص لأداء المهام ذات المفردات المفتوحة. طريقة عملنا ليس فقط تتفوق بشكل ملحوظ على الطرق الأساسية بنسبة تتراوح بين 25.8٪ و44.7٪ في تقاطع IoU و14.5٪ و50.4٪ في دقة AP$_{50}$ في تقسيم المعاني والمثيلات ذات المفردات المفتوحة، بل إنها أيضًا تظهر قابلية نقل قوية في مهام نقل المجال بدون أمثلة (zero-shot domain transfer). يمكنكم زيارة موقع المشروع على الرابط التالي: https://dingry.github.io/projects/PLA.