PerspectiveNet: كشف الأجسام ثلاثية الأبعاد من صورة RGB واحدة من خلال نقاط المنظور

كشف الأجسام ثلاثية الأبعاد من صورة RGB واحدة فقط هو أمر بطبيعته غامض، مما يستدعي استخدام معرفة مسبقة مناسبة وتمثيلات وسيطة كقيود لتقليل عدم اليقين وتحسين التوافق بين مستوى الصورة ثنائي الأبعاد وتنسيق العالم ثلاثي الأبعاد. ولحل هذه التحديات، نقترح اعتماد نقاط المنظور كتمثيل وسيط جديد لكشف الأجسام ثلاثية الأبعاد، حيث تُعرّف هذه النقاط على أنها التمثيل الثنائي للأجسام ثلاثية الأبعاد المحلية ذات البنية المانهاتن، وتُستخدم لتحديد موقع الجسم؛ وتُحقق هذه النقاط القيود الهندسية الناتجة عن التمثيل المنظوري. وبالإضافة إلى ذلك، نصمم نموذجًا قابلاً للتدريب من الطرفين إلى الطرفين يُسمى PerspectiveNet، والذي يقوم في آنٍ واحد بكشف مربع حدودي ثنائي الأبعاد، ونقاط منظور ثنائية الأبعاد، ومربع حدودي ثلاثي الأبعاد لكل جسم من صورة RGB واحدة. يُظهر PerspectiveNet ثلاث مزايا فريدة: (أ) يتم تقدير مربعات الحدود ثلاثية الأبعاد بناءً على نقاط المنظور، مما يسد الفجوة بين مربعات الحدود الثنائية والثلاثية الأبعاد دون الحاجة إلى معرفة مسبقة بأشكال الأجسام ثلاثية الأبعاد حسب الفئة. (ب) يُقدّر النموذج نقاط المنظور باستخدام منهجية قائمة على القوالب، ويُصاغ خسارة منظورية (perspective loss) للحفاظ على القيود المنظورية. (ج) يحافظ النموذج على التوافق بين نقاط المنظور الثنائية الأبعاد ومربعات الحدود ثلاثية الأبعاد من خلال دالة تطبيقية قابلة للتفاضل. وأظهرت التجارب على مجموعة بيانات SUN RGB-D أن الطريقة المقترحة تتفوق بشكل ملحوظ على الطرق الحالية القائمة على RGB في كشف الأجسام ثلاثية الأبعاد.