CamLiFlow: تكامل ثنائي الاتجاه بين الكاميرا وLiDAR لتقدير التدفق البصري والتدفق المكاني المشترك

في هذه الورقة، ندرس مشكلة التقدير المشترك للتدفق البصري (Optical Flow) والتدفق المكاني (Scene Flow) من بيانات ثنائية الأبعاد (2D) وثلاثية الأبعاد (3D) المزامنة. اعتمدت الطرق السابقة إما على أنظمة معقدة تقسم المهمة المشتركة إلى مراحل مستقلة، أو تدمج المعلومات من 2D و3D بطريقة "الدمج المبكر" (early-fusion) أو "الدمج المتأخر" (late-fusion). تعاني هذه النماذج الموحدة من تناقض في عدم القدرة على الاستفادة الكاملة من خصائص كل وسيلة (موداليتي)، أو في عدم تحقيق أقصى درجة من التكامل بين الوسائط المختلفة. ولحل هذه المشكلة، نقترح إطارًا جديدًا متكاملًا بالكامل (end-to-end)، يُسمى CamLiFlow. يتكون هذا الإطار من فرعين: فرع ثنائي الأبعاد وفرع ثلاثي الأبعاد، مرتبطان ببعضهما عبر اتصالات ثنائية الاتجاه (bidirectional connections) في طبقات محددة. على عكس الدراسات السابقة، نطبق فرعًا ثلاثي الأبعاد يستند إلى النقاط (point-based) لاستخلاص ميزات هندسية أكثر دقة، ونصمم مشغلًا قابلاً للتعلم بشكل متماثل (symmetric learnable operator) لدمج الميزات الصورة الكثيفة مع الميزات النقطية المتناثرة. أظهرت التجارب أن CamLiFlow يحقق أداءً أفضل باستخدام عدد أقل من المعاملات، وتصدر المركز الأول في معيار KITTI لتدفق المشهد، متفوقًا على أفضل الطرق السابقة بـ 1/7 من عدد المعاملات. يمكن الوصول إلى الشفرة المصدرية عبر الرابط: https://github.com/MCG-NJU/CamLiFlow.