RePOSE: تحسين سريع لوضعية الجسم 6D من خلال عرض نسيج عميق

نقدّم RePOSE، وهي طريقة سريعة للتحسين التكراري لتقدير الوضعية الستة الأبعاد (6D) للكائنات. تعتمد الطرق السابقة على التحسين من خلال إدخال صور مُقرّبة (zoomed-in) وصور RGB مُولّدة بواسطة نموذج ثلاثي الأبعاد إلى شبكة عصبية متعددة الطبقات (CNN)، ثم استخلاص تحديث مباشر للوضعية المحسّنة. لكن سرعة التشغيل هذه تبقى بطيئة بسبب التكلفة الحسابية العالية للـ CNN، وهي مشكلة ملحوظة بشكل خاص عند تحسين الوضعية للكائنات المتعددة. لتجاوز هذه المشكلة، يستخدم RePOSE توليد الصور (image rendering) لاستخراج الميزات بسرعة باستخدام نموذج ثلاثي الأبعاد يحتوي على نسيج قابل للتعلم. نسمّي هذه التقنية "توليد النسيج العميق" (deep texture rendering)، والتي تستخدم شبكة عصبية شبه بسيطة (shallow multi-layer perceptron) لاستخلاص تمثيل صوري ثابت بالنسبة للزاوية (view-invariant image representation) مباشرة. علاوةً على ذلك، نستخدم تحسينًا قابلاً للتفاضل من نوع ليفينبرغ-ماركواردت (differentiable Levenberg-Marquardt, LM) لتحسين الوضعية بسرعة ودقة عالية من خلال تقليل خطأ القياس المتعلق بالميزات بين تمثيلات الصورة المدخلة والصورة المولّدة، دون الحاجة إلى تكبير الصورة. تم تدريب هذه التمثيلات الصورية بحيث يُحقق التحسين القابِل للتفاضل باستخدام خوارزمية LM تقاربًا دقيقًا في عدد قليل من التكرارات. وبذلك، تعمل RePOSE بسرعة 92 إطارًا في الثانية (FPS)، وتحقيق دقة قياسية جديدة (state-of-the-art) تبلغ 51.6% على مجموعة بيانات Occlusion LineMOD، أي تحسينًا مطلقًا بنسبة 4.1% مقارنة بالطرق السابقة، مع نتائج مماثلة على مجموعة بيانات YCB-Video، ولكن بزمن تشغيل أسرع بكثير. يمكن الوصول إلى الكود المصدر عبر الرابط: https://github.com/sh8/repose.