HyperAIHyperAI
منذ 2 أشهر

Pix2Pose: الانحدار البكسلي للإحداثيات الكائنات لتقدير الوضعية ثلاثية الأبعاد مع الدوران

Kiru Park; Timothy Patten; Markus Vincze
Pix2Pose: الانحدار البكسلي للإحداثيات الكائنات لتقدير الوضعية ثلاثية الأبعاد مع الدوران
الملخص

تقدير وضعية الأشياء بستة أبعاد باستخدام صور RGB فقط لا يزال تحديًا بسبب مشاكل مثل التغطية والتماثل. كما أنه من الصعب بناء نماذج ثلاثية الأبعاد بدقة بدون معرفة خبراء أو أجهزة المسح المتخصصة. لمعالجة هذه المشاكل، نقترح طريقة جديدة لتقدير الوضعية تسمى Pix2Pose، والتي تتنبأ بإحداثيات ثلاثية الأبعاد لكل بكسل من الكائن دون الحاجة إلى نماذج ملمسة. تم تصميم هندسة كودير ذاتي (auto-encoder) لتقييم إحداثيات 3D والأخطاء المتوقعة لكل بكسل. يتم استخدام هذه التنبؤات البكسلية في عدة مراحل لتشكيل مطابقات ثنائية-ثلاثية الأبعاد (2D-3D correspondences) لحساب الوضعيات مباشرة باستخدام خوارزمية PnP مع تكرارات RANSAC. طريقتنا مقاومة للتغطية من خلال الاستفادة من الإنجازات الحديثة في التدريب المعاكس الجيني (generative adversarial training) لإعادة إنتاج الأجزاء المغطاة بدقة. بالإضافة إلى ذلك، تم اقتراح دالة خسارة جديدة تُعرف باسم دالة الخسارة المحول (transformer loss) للتعامل مع الكائنات المتماثلة عن طريق توجيه التنبؤات إلى أقرب وضعية متماثلة. أظهرت التقييمات على ثلاثة مجموعات بيانات مختلفة تحتوي على كائنات متماثلة ومغطاة أن طرقتنا تتفوق على أفضل التقنيات الحالية باستخدام صور RGB فقط.

Pix2Pose: الانحدار البكسلي للإحداثيات الكائنات لتقدير الوضعية ثلاثية الأبعاد مع الدوران | أحدث الأوراق البحثية | HyperAI