HyperAIHyperAI
منذ 3 أشهر

إكمال المشهد الدلالي من خلال دمج الكيانات والمشهد في دورة التفاعل

Yingjie Cai, Xuesong Chen, Chao Zhang, Kwan-Yee Lin, Xiaogang Wang, Hongsheng Li
إكمال المشهد الدلالي من خلال دمج الكيانات والمشهد في دورة التفاعل
الملخص

يهدف إكمال المشهد الدلالي إلى إعادة بناء مشهد ثلاثي الأبعاد كامل مع دلالة فوضوية دقيقة على مستوى الفوكسل من صورة عمق من منظور واحد أو صورة RGBD. يُعد هذا التحدي مهمًا جدًا ولكن صعبًا جدًا في فهم المشاهد الداخلية. في هذا العمل، نقدّم إطارًا جديدًا يُسمى شبكة المشهد-الكائن-المشهد (SISNet)، والذي يستفيد من المعلومات الدلالية على مستوى الكائنات والمشهد معًا. يمتلك طريقتنا القدرة على استنتاج تفاصيل شكل دقيقة، فضلًا عن الكائنات القريبة التي يصعب التمييز بين فئاتها الدلالية. الفكرة الأساسية تكمن في فصل الكائنات عن مشهد دلالي مكتمل بشكل خشن، بدلاً من الصورة الأصلية المُدخلة، لتوجيه عملية إعادة بناء الكائنات والمشهد ككل. تقوم شبكة SISNet بعمليات تكامل دلالي متكررة بين المشهد والكائن (SI) والكائن إلى المشهد (IS). وبشكل خاص، يمكن لعملية SI ترميز السياق المحيط بالكائنات، مما يُمكّن من فصل الكائنات عن المشهد بشكل فعّال، ويمكن لكل كائن أن يُحوّل إلى تفاصيل أكثر دقة من خلال التبديل إلى دقة أعلى. أما عملية IS، فتُسمح بدمج المعلومات الدقيقة المتعلقة بالكائنات مرة أخرى في المشهد ثلاثي الأبعاد، مما يؤدي إلى إكمال دلالي أكثر دقة. وباستخدام آلية متكررة كهذه، يُسهم إكمال المشهد وإكمال الكائنات في تعزيز بعضهما البعض لتحقيق دقة أعلى في الإكمال. أظهرت التجارب الواسعة أن طريقة الاقتراح لدينا تتفوّق باستمرار على أحدث الطرق المُقدمة على كلا مجموعتي البيانات الحقيقية (NYU وNYUCAD) والبيانات الاصطناعية (SUNCG-RGBD). ستكون الشفرة والمواد المكملة متاحة على الرابط: \url{https://github.com/yjcaimeow/SISNet}.