إكمال المشهد الدلالي الواعي بالرسم ثلاثي الأبعاد عبر بنية شبه مراقبة
هدف مهمة الاكتمال المشهدي الدلالي (SSC) هو التنبؤ بشكل متزامن بتمثيل ثلاثي الأبعاد مكتمل للاحتلال الحجمي وتصنيفات دلالية للأجسام في المشهد من خلال ملاحظة من زاوية واحدة. نظرًا لأن التكلفة الحسابية تزداد بشكل كبير مع زيادة دقة الفوكسل، فإن معظم التقنيات الرائدة حاليًا يجب أن تعديل إطارها إلى تمثيل بدقة منخفضة على حساب التنبؤ بالتفاصيل. وهكذا، تصبح دقة الفوكسل أحد الصعوبات الحرجة التي تؤدي إلى رقبة الزجاج (bottleneck) في الأداء.في هذا البحث، نقترح وضع استراتيجية جديدة قائمة على الهندسة لدمج معلومات العمق مع تمثيل الفوكسل بدقة منخفضة، والتي لا تزال قادرة على ترميز المعلومات الهندسية الكافية، مثل تصميم الغرفة وأحجام الأجسام وأشكالها، للتنبؤ بالمناطق غير المرئية للمشهد مع تفاصيل تحافظ جيدًا على الهيكل. لهذا الغرض، نقترح أولاً تقنية جديدة لترميز الميزات الواعية بالرسم الثلاثي الأبعاد (3D sketch-aware feature embedding) لترميز المعلومات الهندسية بشكل فعال وكفicient. ومع وجود الرسم الثلاثي الأبعاد، نقوم بوضع إطار بسيط ولكنه فعال لإكمال المشهد الدلالي يضم وحدة خفيفة لإبداع الرسم الثلاثي الأبعاد (3D Sketch Hallucination module) لتوجيه استدلال الاحتلال والتصنيفات الدلالية عبر استراتيجية تعلم سابقة بنصف الإشراف (semi-supervised structure prior learning strategy). نوضح أن تقنية الترميز الهندسي المقترحة لدينا تعمل بشكل أفضل من تقنيات تعلم ميزات العمق المستخدمة عادة في إطارات SSC. يتفوق نموذجنا النهائي باستمرار على التقنيات الرائدة في ثلاثة مقاييس عامة، حيث يحتاج فقط إلى أحجام ثلاثية الأبعاد بدقة 60 × 36 × 60 لكل من المدخل والمخرج. سيتم توفير الكود والمواد الإضافية في https://charlesCXK.github.io.