RAFT-3D: تدفق المشهد باستخدام تضمينات الحركة الصلبة

نُعالج مشكلة تدفق المشهد: مع زوج من الإطارات المرئية الاستيريو أو RGB-D، نُقدّر الحركة ثلاثية الأبعاد لكل بكسل. نُقدّم RAFT-3D، وهي بنية عميقة جديدة لحساب تدفق المشهد. تعتمد RAFT-3D على نموذج RAFT المطوّر لحساب تدفق البصريات، لكنها تقوم بتحديث تدريجي لمجال كثيف من الحركة SE3 لكل بكسل بدلاً من الحركة ثنائية الأبعاد. تمثل الابتكار الرئيسي في RAFT-3D هو "تمثيلات الحركة الصلبة"، التي تمثل تجميعًا ناعمًا للبكسلات ضمن كائنات صلبة. وتعتبر "Dense-SE3"، وهي طبقة قابلة للتفاضل، جزءًا أساسيًا من تمثيلات الحركة الصلبة، حيث تفرض اتساقًا هندسيًا على هذه التمثيلات. أظهرت التجارب أن RAFT-3D تحقق أفضل أداء مُسجل حتى الآن. على مجموعة بيانات FlyingThings3D، في تقييم الحالة ثنائية الرؤية، قمنا بتحسين أفضل دقة منشورة (d < 0.05) من 34.3% إلى 83.7%. وعلى مجموعة بيانات KITTI، حققنا خطأً قدره 5.77، متفوّقين على أفضل طريقة منشورة (6.31)، رغم عدم استخدام أي إشراف على هويات الكائنات. يمكن الوصول إلى الكود من خلال: https://github.com/princeton-vl/RAFT-3D.