HyperAIHyperAI
منذ 2 أشهر

اكتشاف الأشياء ثلاثية الأبعاد من خلال كاميرا واحدة باستغلال اقتراحات دقيقة وإعادة بناء الشكل

Jason Ku; Alex D. Pon; Steven L. Waslander
اكتشاف الأشياء ثلاثية الأبعاد من خلال كاميرا واحدة باستغلال اقتراحات دقيقة وإعادة بناء الشكل
الملخص

نقدم طريقة الكشف عن الأشياء ثلاثية الأبعاد من خلال كاميرا واحدة (MonoPSR)، والتي تعتمد على الاقتراحات وإعادة بناء الشكل. أولاً، باستخدام العلاقات الأساسية لنموذج الكاميرا ذات الثقب الإبرة، يتم استخدام اكتشافات من محدد كائنات ثنائي الأبعاد ناضج لإنشاء اقتراح ثلاثي الأبعاد لكل كائن في المشهد. تثبت مواقع هذه الاقتراحات أنها دقيقة للغاية، مما يقلل بشكل كبير من صعوبة تقدير الاكتشاف النهائي للصندوق الحدودي ثلاثي الأبعاد. وفي الوقت نفسه، يتم التنبؤ بسحابة نقاط في نظام إحداثيات مركز الكائن لتعلم المعلومات المحلية حول الحجم والشكل. ومع ذلك، فإن التحدي الرئيسي هو كيفية الاستفادة من معلومات الشكل لتوجيه تحديد الموقع ثلاثي الأبعاد. لذلك، قمنا بتصميم خسائر مجمعة، بما في ذلك خسارة تناسق الإسقاط الجديدة (projection alignment loss)، لتحسين دقة تحديد الموقع ثلاثي الأبعاد من خلال تحسين هذه المهام بشكل مشترك في الشبكة العصبية. لقد أجرينا اختبار طريquetنا على مقاييس KITTI حيث حققنا نتائج جديدة رائدة بين الطرق المنشرة التي تعتمد على كاميرا واحدة، بما في ذلك فئات المشاة وراكبي الدراجات الأكثر صعوبة، مع الحفاظ على وقت تشغيل فعال.请注意,最后一句中的“طريquetنا”是错误的,应该是“طريقتنا”。正确的翻译如下:نقدم طريقة الكشف عن الأشياء ثلاثية الأبعاد من خلال كاميرا واحدة (MonoPSR)، والتي تعتمد على الاقتراحات وإعادة بناء الشكل. أولاً، باستخدام العلاقات الأساسية لنموذج الكاميرا ذات الثقب الإبرة، يتم استخدام اكتشافات من محدد كائنات ثنائي الأبعاد ناضج لإنشاء اقتراح ثلاثي الأبعاد لكل كائن في المشهد. تثبت مواقع هذه الاقتراحات أنها دقيقة للغاية، مما يقلل بشكل كبير من صعوبة تقدير الاكتشاف النهائي للصندوق الحدودي ثلاثي الأبعاد. وفي الوقت نفسه، يتم التنبؤ بسحابة نقاط في نظام إحداثيات مركز الكائن لتعلم المعلومات المحلية حول الحجم والشكل. ومع ذلك، فإن التحدي الرئيسي هو كيفية الاستفادة من معلومات الشكل لتوجيه تحديد الموقع ثلاثي الأبعاد. لذلك، قمنا بتصميم خسائر مجمعة، بما في ذلك خسارة تناسق الإسقاط الجديدة (projection alignment loss)، لتحسين دقة تحديد الموقع ثلاثي الأبعاد من خلال تحسين هذه المهام بشكل مشترك في الشبكة العصبية. لقد أجرينا اختبار طريقتنا على مقاييس KITTI حيث حققنا نتائج جديدة رائدة بين الطرق المنشرة التي تعتمد على كاميرا واحدة، بما في ذلك فئات المشاة وراكبي الدراجات الأكثر صعوبة، مع الحفاظ على وقت تشغيل فعال.

اكتشاف الأشياء ثلاثية الأبعاد من خلال كاميرا واحدة باستغلال اقتراحات دقيقة وإعادة بناء الشكل | أحدث الأوراق البحثية | HyperAI