DVI: إصلاح الفيديو الموجه بالعمق للقيادة الذاتية

لتحقيق رؤية شارعية واضحة ومحاكاة واقعية من حيث الصور في القيادة الذاتية، نقدم خوارزمية تلقائية لاستكمال مقاطع الفيديو (video inpainting) تُزيل الوكلاء المروريين من مقاطع الفيديو وتنشئ المناطق المفقودة بمساعدة البيانات العمقية/السحابة النقطية. من خلال بناء خريطة ثلاثية الأبعاد كثيفة من السحابة النقطية المُلصقة، يتم ربط الإطارات داخل الفيديو هندسيًا عبر هذه الخريطة ثلاثية الأبعاد المشتركة. لملء منطقة الاستكمال المستهدفة في إطار معين، يصبح من السهل تحويل البكسلات من الإطارات الأخرى إلى الإطار الحالي مع مراعاة التعتيم الصحيح. علاوة على ذلك، نتمكن من دمج عدة مقاطع فيديو من خلال عملية مطابقة السحابة النقطية ثلاثية الأبعاد، مما يتيح لنا استكمال فيديو مستهدف باستخدام عدة مقاطع مصدرية. ويُعدّ الدافع وراء ذلك هو حل مشكلة التعتيم الطويلة حيث تبقى منطقة معينة مختبئة ولا تُرى أبدًا خلال كامل مقطع الفيديو. إلى حد علمنا، نحن أول من يدمج عدة مقاطع فيديو لغرض استكمال الفيديو. وللتحقق من فعالية نهجنا، قمنا ببناء مجموعة بيانات واسعة لاستكمال الفيديو في بيئة طريق حضري حقيقي، تتضمن صورًا متماسكة وبيانات ليدار، وتشمل العديد من السيناريوهات الصعبة، مثل التعتيم الطويل. تُظهر النتائج التجريبية أن النهج المقترح يتفوق على أفضل النماذج الحالية من حيث جميع المعايير، وبخاصة في انخفاض الخطأ التربيعي المتوسط (RMSE) بنسبة تقارب 13%.