HyperAIHyperAI
منذ 16 أيام

تعلم التدفق البصري والتدفق السيني باستخدام التكامل الثنائي الاتجاه بين الكاميرا وليدار

Haisong Liu, Tao Lu, Yihui Xu, Jia Liu, Limin Wang
تعلم التدفق البصري والتدفق السيني باستخدام التكامل الثنائي الاتجاه بين الكاميرا وليدار
الملخص

في هذه الورقة، ندرس مشكلة التقدير المشترك للتدفق البصري (Optical Flow) والتدفق المكاني (Scene Flow) من بيانات ثنائية الأبعاد (2D) وثلاثية الأبعاد (3D) المزامنة. اعتمدت الطرق السابقة إما على خط أنابيب معقد يقسم المهمة المشتركة إلى مراحل مستقلة، أو تدمج المعلومات من 2D و3D بطريقة "الدمج المبكر" (early-fusion) أو "الدمج المتأخر" (late-fusion). وتتعرض هذه النماذج الموحدة للعديد من التحديات، حيث تفشل في استغلال الخصائص الكاملة لكل من الوسائط، أو في تحقيق أقصى قدر من التكامل بين الوسائط المختلفة. ولحل هذه المشكلة، نقترح إطارًا جديدًا متكاملًا من البداية إلى النهاية، يتكون من فرعين: فرع 2D وفرع 3D، يربط بينهما اتصالات متعددة للدمج الثنائي الاتجاه (bidirectional fusion) في طبقات محددة. على عكس الدراسات السابقة، نستخدم فرعًا ثلاثي الأبعاد مبنيًا على النقاط (point-based) لاستخراج ميزات ليدار، نظرًا لقدرته على الحفاظ على البنية الهندسية للسحاب النقطية (point clouds). ولدمج الميزات الصورة الكثيفة (dense image features) مع الميزات النقطية المتباعدة (sparse point features)، نقترح عاملًا قابلًا للتعلم يُسمى وحدة الدمج الثنائي الاتجاه بين الكاميرا وليدار (Bi-CLFM). ونُنفّذ نوعين من أنماط الدمج الثنائي الاتجاه: الأول يستند إلى بنية هرمية من الخشنة إلى الدقيقة (CamLiPWC)، والثاني يستند إلى تحويلات حقول جميع الأزواج المتكررة (recurrent all-pairs field transforms) (CamLiRAFT). على مجموعة بيانات FlyingThings3D، تتفوق كل من CamLiPWC وCamLiRAFT على جميع الطرق السابقة، وتُسجّل تقليلًا يصل إلى 47.9٪ في خطأ النقطة النهائية ثلاثية الأبعاد مقارنة بأفضل نتيجة منشورة. ويحقق أفضل نموذج لدينا، CamLiRAFT، خطأً قدره 4.26٪ على معيار KITTI لتدفق المشهد، ويحتل المرتبة الأولى بين جميع التقديمات، مع استخدام عدد أقل بكثير من المعاملات (parameters). علاوة على ذلك، تُظهر طرقنا أداءً عامًا قويًا وقدرة على التعامل مع الحركات غير الثابتة (non-rigid motion). يتوفر الكود على الرابط التالي: https://github.com/MCG-NJU/CamLiFlow.

تعلم التدفق البصري والتدفق السيني باستخدام التكامل الثنائي الاتجاه بين الكاميرا وليدار | أحدث الأوراق البحثية | HyperAI