تدفق المشهد القابل للتوسع من السحابات النقطية في العالم الحقيقي

تُشغل المركبات ذاتية القيادة في بيئات ديناميكية للغاية، مما يتطلب تقييمًا دقيقًا لجوانب المشهد التي تتحرك، وما إلى أين تتحرك. يُعدّ النهج الشائع لتقدير الحركة ثلاثية الأبعاد، والمعروف بـ "تدفق المشهد" (scene flow)، استخدام بيانات السحابة ثلاثية الأبعاد (3D point cloud) المستمدة من عمليات مسح ليدار متتالية، ومع ذلك فإن هذه النهج كانت محدودة بسبب حجم البيانات الحقيقية المُعلّمة من ليدار التي تُعتبر صغيرة جدًا. في هذا العمل، نقدّم مجموعة بيانات جديدة وواسعة النطاق لتقدير تدفق المشهد، مستمدة من كائنات ثلاثية الأبعاد تم تتبعها، وتبلغ حجمها تقريبًا 1000 مرة أكثر من المجموعات السابقة من البيانات الحقيقية من حيث عدد الإطارات المُعلّمة. نُظهر كيف كانت الدراسات السابقة محدودة بناءً على كمية البيانات الحقيقية من ليدار المتاحة، مما يشير إلى الحاجة إلى مجموعات بيانات أكبر لتحقيق أداء تنبؤي متميز. علاوةً على ذلك، نُبيّن كيف أن الاستراتيجيات السابقة لمعالجة السحاب النقطية، مثل التقليل من الكثافة (down-sampling)، تؤدي إلى تدهور كبير في الأداء، مما يدفع إلى تطوير فئة جديدة من النماذج قابلة للتطبيق على السحابة النقطية الكاملة. ولحل هذه المشكلة، نقدّم معمارية FastFlow3D التي تتيح استنتاجًا في الوقت الفعلي على السحابة النقطية الكاملة. بالإضافة إلى ذلك، نصمم مقاييس قابلة للفهم البشري، والتي تعكس بشكل أفضل الجوانب الواقعية من خلال أخذ حركة المركبة (ego-motion) بعين الاعتبار، وتقديم تحليلات مفصلة حسب نوع الكائن. نأمل أن تُمكّن هذه المجموعة من البيانات من فتح فرص جديدة لتطوير أنظمة تدفق المشهد الواقعية.