Lowis3D: فهم مشهد ثلاثي الأبعاد على مستوى المثيل بقيادة اللغة

فهم المشاهد على مستوى الحالة في العالم المفتوح يهدف إلى تحديد موقع وتعرف على فئات الأشياء غير المعروفة التي لا توجد في مجموعة البيانات المصححة. يعتبر هذا المهمة صعبة لأن النموذج بحاجة إلى تحديد موقع الأشياء ثلاثية الأبعاد الجديدة واستنتاج فئاتها الدلالية. أحد العوامل الرئيسية وراء التقدم الحديث في الإدراك المفتوح ثنائية الأبعاد هو توفر أزواج الصور والنصوص على نطاق واسع من الإنترنت، والتي تغطي مجموعة متنوعة من مفاهيم المفردات. ومع ذلك، فإن هذه النجاحات صعبة التكرار في السيناريوهات ثلاثية الأبعاد بسبب ندرة أزواج الصور والنصوص ثلاثية الأبعاد.لحل هذه التحديات، نقترح الاستفادة من النماذج الأساسية للرؤية واللغة (VL) التي تم تدريبها مسبقًا لترميز المعرفة الواسعة المستخلصة من أزواج الصور والنصوص لإنشاء عناوين لمجموعات الصور متعددة الزوايا للمشاهد ثلاثية الأبعاد. هذا يسمح لنا بإنشاء روابط واضحة بين الأشكال ثلاثية الأبعاد والعناوين الغنية بالمحتوى الدلالي. بالإضافة إلى ذلك، لتعزيز تعلم التمثيل البصري-الدلالي الدقيق من العناوين لتصنيف الفئات على مستوى الكائن، نصمم طرق ربط متدرجة بين النقاط والعناوين لتعلم تضمينات دلالية تستفيد من الهندسة ثلاثية الأبعاد بين النقاط الثلاثية الأبعاد ومجموعات الصور متعددة الزوايا.بالإضافة إلى ذلك، للتعامل مع تحدي تحديد الموقع للفئات الجديدة في الإعداد العالمي المفتوح، نطور تقنيات تحديد الموقع بدون تحيز، والتي تتضمن تدريب وحدات مجموع الكائنات على بيانات غير مصححة باستخدام إشراف زائف على مستوى الحالة. هذا يحسن بشكل كبير قدرات التعميم لمجموع الكائنات وبالتالي القدرة على تحديد موقع الكائنات الجديدة بدقة. نقوم بإجراء تجارب واسعة النطاق على مهام التقسيم الدلالي والمثلي والشامل للمشاهد ثلاثية الأبعاد، مما يغطي المشاهد الداخلية والخارجية عبر ثلاثة مجموعات بيانات. طريقتنا تتفوق بشكل كبير على الطرق الأساسية في التقسيم الدلالي (مثل 34.5% ~ 65.3%)، التقسيم المثلي (مثل 21.8% ~ 54.0%) والتقسيم الشامل (مثل 14.7% ~ 43.3%). سيتم توفير الرمز البرمجي.科技/学术术语处理:开放世界实例级场景理解:فهم المشاهد على مستوى الحالة في العالم المفتوح未见物体类别:فئات الأشياء غير المعروفة注释数据集:مجموعة البيانات المصححة三维对象:الأشياء ثلاثية الأبعاد语义类别:الفئات الدلالية大规模图像-文本对:أزواج الصور والنصوص على نطاق واسع预训练视觉语言模型:النماذج الأساسية للرؤية واللغة (VL)多视图图像:مجموعات الصور متعددة الزوايا细粒度视觉-语义表示学习:تعلم التمثيل البصري-الدلالي الدقيق层次点-标题关联方法:طرق ربط متدرجة بين النقاط والعناوين语义感知嵌入:تضمينات دلالية三维几何关系:الهندسة ثلاثية الأبعاد无偏实例定位:تحديد الموقع بدون تحيز伪监督:إشراف زائف语义分割任务:مهام التقسيم الدلالي实例分割任务:مهام التقسيم المثلي全景分割任务:مهام التقسيم الشامل希望这些翻译能够满足您的要求。如果有任何进一步的问题或需要调整的地方,请随时告知。