GDRNPP: مُقدِّر موضع الكائن مُوجَّه هندسيًا ويعتمد بالكامل على التعلم

تقدير الوضعية 6D للأجسام الصلبة يُعد مهمة قديمة وصعبة في مجال الرؤية الحاسوبية. في الآونة الأخيرة، ظهور التعلم العميق كشف عن الإمكانات الكامنة في الشبكات العصبية التلافيفية (CNN) لتقدير وضعيات 6D موثوقة. ومع أن الشبكات التي تقوم باسترجاع الوضعية مباشرة تُظهر حاليًا أداءً غير مثالي، فإن معظم الطرق ما زالت تعتمد إلى حد ما على التقنيات التقليدية. على سبيل المثال، غالبًا ما تستخدم الطرق الأفضل أداءً استراتيجية غير مباشرة، تبدأ ببناء تطابقات ثنائية الأبعاد مع ثلاثية الأبعاد (2D-3D) أو ثلاثية الأبعاد مع ثلاثية الأبعاد (3D-3D)، ثم تطبّق خوارزميات PnP القائمة على RANSAC أو خوارزمية Kabsch، وتستخدم لاحقًا خوارزمية ICP لتحسين النتائج. وعلى الرغم من تحسن الأداء، فإن دمج التقنيات التقليدية يجعل الشبكات بطيئة جدًا وغير قابلة للتدريب من النهاية إلى النهاية. على النقيض من ذلك، تقدم هذه الورقة مُقدّرًا للوضعية الكلي القائم على التعلم. في هذا العمل، نقوم أولًا بدراسة معمقة لكل من الطرق المباشرة وغير المباشرة، ونُقدّم شبكة ترجع مباشرة موجهة هندسيًا (GDRN) بسيطة لكنها فعّالة، لاستخلاص الوضعية 6D من الصور المفردة بشكل متكامل ومتسلسل. بعد ذلك، نُقدّم وحدة تحسين للوضعية موجهة هندسيًا، لتعزيز دقة الوضعية عند توفر بيانات عمق إضافية. وبنفس الطريقة، نبني بنية قابلة للتفاضل من النهاية إلى النهاية، موجهة بالخريطة الإحداثية المُقدّرة، لبناء تطابقات ثلاثية الأبعاد مع ثلاثية الأبعاد (3D-3D) قوية ودقيقة بين الصور RGB-D المُلاحظة والمرسومة، بهدف تحسين الوضعية. وقد تمكّنت خطّة التقدير المُحسّنة GDRNPP (GDRN Plus Plus) من التفوق على قائمة الصدارة في مسابقة BOP Challenge لعامين متتاليين، لتكون أول طريقة تتجاوز جميع الطرق السابقة التي تعتمد على التقنيات التقليدية من حيث الدقة والسرعة معًا. يمكن الوصول إلى الشفرة والنموذج عبر الرابط: https://github.com/shanice-l/gdrnpp_bop2022.