التنبؤ الفوري والسلس بموضع الكائن ثلاثي الأبعاد في الفضاء الستة أبعاد باستخدام طريقة التصوير الفوري الواحد

نقترح نهجًا واحدًا للكشف عن الكائن في صورة RGB وتوقع وضعه الثلاثي الأبعاد الستة دون الحاجة إلى مراحل متعددة أو فحص فرضيات متعددة. على عكس التقنية ذات النظرة الواحدة التي تم اقتراحها مؤخرًا لهذا المهمة (Kehl وآخرون، ICCV'17) والتي تتنبأ فقط بوضع ثلاثي أبعاد ستة تقريبي يجب تحسينه بعد ذلك، فإن تقنيتنا دقيقة بما يكفي بحيث لا تتطلب معالجة ما بعد الإنتاج الإضافية. نتيجة لذلك، هي أسرع بكثير - 50 إطارًا في الثانية على بطاقة Titan X (Pascal) GPU - وأكثر ملاءمة للمعالجة الزمنية الحقيقية. المكون الرئيسي لطرقنا هو هندسة شبكة CNN جديدة مستوحاة من تصميم شبكة YOLO التي تتنبأ مباشرة بمواقع الصورة ثنائية الأبعاد للرؤوس المرجعة لصندوق الحدود الثلاثي الأبعاد للكائن. ثم يتم تقدير وضع الكائن الثلاثي الأبعاد الستة باستخدام خوارزمية PnP.لتقدير وضع كائن واحد وكائنات متعددة على مجموعات البيانات LINEMOD وOCCLUSION، يتفوق نهجنا بشكل كبير على طرق CNN الأخرى الحديثة عندما يتم استخدامها جميعًا دون معالجة ما بعد الإنتاج. خلال المعالجة ما بعد الإنتاج، يمكن استخدام خطوة تحسين الوضع لزيادة دقة الطرق الموجودة، ولكن عند 10 إطارات في الثانية أو أقل، فهي أبطأ بكثير من طرقنا.