شبكات التفافية غير متجانسة لاستكمال المشهد الدلالي ثلاثي الأبعاد

كعملية تسمية بنائية حسب البكسل، يحاول التحليل الدلالي للمشهد (SSC) استنتاج الامتلاء والتسميات الدلالية لمشهد من صورة عمق واحدة و/أو صورة RGB. التحدي الرئيسي في SSC هو كيفية الاستفادة الفعالة من السياق ثلاثي الأبعاد لنمذجة مختلف الأشياء أو المواد التي تعاني من تباينات شديدة في الأشكال والترتيبات والمرئية. للتعامل مع هذه التباينات، نقترح وحدة جديدة تُعرف بالانزياج المتغير (Anisotropic Convolution)، والتي تتميز بالمرونة والقوة اللتين لا يمكن تحقيقهما بواسطة الطرق المنافسة مثل الانزياج ثلاثي الأبعاد القياسي وبعض تغييراته.بالمقارنة مع الانزياج ثلاثي الأبعاد القياسي الذي يقتصر على مجال استقبال ثابت ثلاثي الأبعاد، فإن وحدتنا قادرة على نمذجة الانزياج البعدية المتغيرة حسب البكسل. الفكرة الأساسية هي تمكين المجال الثلاثي الأبعاد المتغير بتفكيك الانزياج ثلاثي الأبعاد إلى ثلاثة انزياجات خطية متتالية (1D Convolutions)، ويتم تحديد حجم النواة لكل انزياج خطي بمرونة أثناء التنفيذ. من خلال تراكيب عدة وحدات انزياج متغير، يمكن تعزيز قدرة النمذجة حسب البكسل بينما يتم الحفاظ على كمية قابلة للتحكم من معلمات النموذج.أظهرت التجارب الواسعة على معياري SSC، NYU-Depth-v2 وNYUCAD، أداء الطريقة المقترحة المتفوق. رمزنا البرمجي متاح على الرابط: https://waterljwant.github.io/SSC/