SceneGraphFusion: التنبؤ بالرسم البياني ثلاثي الأبعاد التدريجي من تسلسلات RGB-D

تمثل رسومات المشهد تمثيلًا مكثفًا وواضحًا تم استخدامه بنجاح في مجموعة متنوعة من مهام فهم المشهد ثنائي الأبعاد. تُقدّم هذه الدراسة طريقة لبناء رسومات مشهد دلالية بشكل تدريجي من بيئة ثلاثية الأبعاد، بالاعتماد على تسلسل من الإطارات RGB-D. ولتحقيق ذلك، نقوم بتجميع ميزات PointNet من مكونات المشهد الأساسية باستخدام شبكة عصبية رسمية (Graph Neural Network). كما نقترح آلية انتباه جديدة تناسب بشكل ممتاز بيانات الرسم البياني الجزئية أو المفقودة التي تظهر في سياق إعادة البناء التدريجي هذا. وعلى الرغم من أن الطريقة المقترحة مصممة للعمل على أجزاء من المشهد (submaps)، إلا أننا نُظهر أنها تنتقل بنجاح إلى المشاهد ثلاثية الأبعاد الكاملة. وتُظهر التجارب أن نهجنا يتفوق بشكل كبير على الطرق الحالية لتنبؤ رسومات المشهد ثلاثية الأبعاد، كما تُبقي دقته على مستوى الطرق الأخرى الخاصة بالتقسيم الدلالي والشامل ثلاثي الأبعاد، مع تشغيلها بسرعة 35 هرتز.