HyperAIHyperAI
منذ 2 أشهر

كل بكسل يهم ++: التعلم المشترك للهندسة والحركة مع فهم شامل ثلاثي الأبعاد

Chenxu Luo; Zhenheng Yang; Peng Wang; Yang Wang; Wei Xu; Ram Nevatia; Alan Yuille
كل بكسل يهم ++: التعلم المشترك للهندسة والحركة مع فهم شامل ثلاثي الأبعاد
الملخص

حققت طرق التعلم لتقدير الهندسة ثلاثية الأبعاد في إطار واحد والتدفق البصري من الإطارات المتتالية عن طريق مشاهدة مقاطع الفيديو غير المصنفة عبر شبكات التحويل العميقة تقدمًا كبيرًا مؤخرًا. ومع ذلك، فإن الطرق الرائدة حاليًا (SoTA) تعالج هذين المهمتين بشكل مستقل. وتحتوي إحدى الفرضيات النموذجية للطرق الحالية لتقدير العمق على أن المشاهد لا تحتوي على أشياء متحركة بشكل مستقل، بينما يمكن نمذجة حركة الأشياء بسهولة باستخدام التدفق البصري. في هذا البحث، نقترح معالجة هذين المهمتين كوحدة واحدة، أي فهم الهندسة ثلاثية الأبعاد والحركة لكل بكسل بشكل مشترك. وهذا يلغي الحاجة إلى افتراض المشهد الثابت ويفرض التجانس الهندسي الداخلي أثناء عملية التعلم، مما يؤدي إلى تحسينات كبيرة في كلا المهمتين. نطلق على طرقتنا اسم "كل بكسل له وزن++" أو "EPC++". وبشكل خاص، خلال التدريب، عند تقديم إطارات متتالية من مقطع فيديو، نستخدم ثلاثة شبكات متوازية لتوقع حركة الكاميرا (MotionNet)، وخارطة العمق الكثيفة (DepthNet)، والتدفق البصري لكل بكسل بين الإطارات المتتالية (OptFlowNet) على التوالي. يتم إدخال هذه المعلومات الثلاثة إلى محلل الحركة ثلاثي الأبعاد الشامل (HMP)، حيث يتم فصل واستعادة الحركة ثلاثية الأبعاد لكل بكسل سواءً كان الخلفية الجامدة أو الأشياء المتحركة. تم إجراء تجارب شاملة على مجموعات بيانات مختلفة تحتوي على مشاهد مختلفة، بما في ذلك سيناريو القيادة (مجموعات بيانات KITTI 2012 و KITTI 2015)، والمشاهد الخارجية/الداخلية المختلطة (Make3D) والرسوم المتحركة الصناعية (مجموعة بيانات MPI Sintel). أظهرت النتائج أن أدائنا في مهمات تقدير العمق، تقدير التدفق البصري، المسافة المقطوعة، تقسيم الأشياء المتحركة واستعادة تدفق المشهد يتفوق على باقي الطرق الرائدة حاليًا (SoTA). سيتم توفير الكود في: https://github.com/chenxuluo/EPC.

كل بكسل يهم ++: التعلم المشترك للهندسة والحركة مع فهم شامل ثلاثي الأبعاد | أحدث الأوراق البحثية | HyperAI