إكمال المشهد الدلالي من صورة عمق واحدة

يركز هذا البحث على إكمال المشهد الدلالي، وهي مهمة تتمثل في إنتاج تمثيل ثلاثي الأبعاد كامل للمحتوى الحجمي والعلامات الدلالية لمشهد من خلال ملاحظة خريطة عمق من زاوية واحدة. وقد نظرت الدراسات السابقة إلى إكمال المشهد وتصنيف الخرائط العميقة بشكل منفصل. ومع ذلك، نلاحظ أن هذين المشكلتين مرتبطان ارتباطًا وثيقًا. للاستفادة من الطبيعة المتداخلة لهذين المهمتين، نقدم شبكة الإكمال الدلالي للمشهد (SSCNet)، وهي شبكة ت💬 convoled ثلاثية الأبعاد تعمل من النهاية إلى النهاية وتتلقى صورة عمق واحدة كمدخل وتنشر بشكل متزامن بيانات الاشغال والعلامات الدلالية لجميع الفوكلس في مخروط رؤية الكاميرا. يستخدم شبكتنا وحدة سياق ثلاثية الأبعاد تعتمد على التمدد لتتوسع بفعالية في مجال الاستقبال وتمكين تعلم السياق الثلاثي الأبعاد. لتدريب شبكتنا، نقوم ببناء SUNCG - وهو مجموعة بيانات كبيرة الحجم تم إنشاؤها يدويًا تتضمن مشاهد ثلاثية أبعاد مصطنعة مع شروحات حجمية كثيفة. تظهر تجاربنا أن النموذج المشترك يتفوق على الأساليب التي تعالج كل مهمة بمفردها ويتفوق أيضًا على البدائل الأخرى في مهمة إكمال المشهد الدلالي.注释:- "convoled" 应为 "convolutional",在阿拉伯语中已修正为正确的术语 "متداخلة".- "SUNCG" 是一个特定的数据集名称,因此直接保留了英文原名。