إكمال المشهد الدلالي من خلال دمج الكيانات والمشهد في دورة التفاعل

يهدف إكمال المشهد الدلالي إلى إعادة بناء مشهد ثلاثي الأبعاد كامل مع دلالة فوضوية دقيقة على مستوى الفوكسل من صورة عمق من منظور واحد أو صورة RGBD. يُعد هذا التحدي مهمًا جدًا ولكن صعبًا جدًا في فهم المشاهد الداخلية. في هذا العمل، نقدّم إطارًا جديدًا يُسمى شبكة المشهد-الكائن-المشهد (SISNet)، والذي يستفيد من المعلومات الدلالية على مستوى الكائنات والمشهد معًا. يمتلك طريقتنا القدرة على استنتاج تفاصيل شكل دقيقة، فضلًا عن الكائنات القريبة التي يصعب التمييز بين فئاتها الدلالية. الفكرة الأساسية تكمن في فصل الكائنات عن مشهد دلالي مكتمل بشكل خشن، بدلاً من الصورة الأصلية المُدخلة، لتوجيه عملية إعادة بناء الكائنات والمشهد ككل. تقوم شبكة SISNet بعمليات تكامل دلالي متكررة بين المشهد والكائن (SI) والكائن إلى المشهد (IS). وبشكل خاص، يمكن لعملية SI ترميز السياق المحيط بالكائنات، مما يُمكّن من فصل الكائنات عن المشهد بشكل فعّال، ويمكن لكل كائن أن يُحوّل إلى تفاصيل أكثر دقة من خلال التبديل إلى دقة أعلى. أما عملية IS، فتُسمح بدمج المعلومات الدقيقة المتعلقة بالكائنات مرة أخرى في المشهد ثلاثي الأبعاد، مما يؤدي إلى إكمال دلالي أكثر دقة. وباستخدام آلية متكررة كهذه، يُسهم إكمال المشهد وإكمال الكائنات في تعزيز بعضهما البعض لتحقيق دقة أعلى في الإكمال. أظهرت التجارب الواسعة أن طريقة الاقتراح لدينا تتفوّق باستمرار على أحدث الطرق المُقدمة على كلا مجموعتي البيانات الحقيقية (NYU وNYUCAD) والبيانات الاصطناعية (SUNCG-RGBD). ستكون الشفرة والمواد المكملة متاحة على الرابط: \url{https://github.com/yjcaimeow/SISNet}.