تقدير الصندوق الحدودي ثلاثي الأبعاد باستخدام التعلم العميق والهندسة

نقدم طريقة للكشف عن الأشياء ثلاثية الأبعاد وتقدير وضعها من صورة واحدة. على عكس التقنيات الحالية التي تقتصر على تقدير ориانتة الجسم الثلاثية الأبعاد فقط، فإن طرقتنا تقوم أولاً بتقدير الخصائص ثلاثية الأبعاد للجسم بشكل نسبي مستقر باستخدام شبكة عصبية متعمقة ذات ترتيبات انتقالية (Convolutional Neural Network)، ثم تجمع هذه التقديرات مع القيود الهندسية المقدمة بواسطة مربع حدودي ثنائي الأبعاد للجسم لإنتاج مربع حدودي كامل ثلاثي الأبعاد. يقدر الإخراج الأول للشبكة ориانتة الجسم الثلاثية الأبعاد باستخدام خسارة هجينة منفصلة-مستمرة جديدة، والتي تتفوق بشكل كبير على خسارة L2. يقوم الإخراج الثاني بتقديم أبعاد الجسم الثلاثية، وهي تتسم بنطاق تباين ضيق نسبيًا مقارنة بالبدائل ويمكن التنبؤ بها غالبًا لعديد من أنواع الأجسام. تمكّن هذه التقديرات، عند دمجها مع القيود الهندسية على الانتقال المفروضة بواسطة مربع الحدود الثنائي الأبعاد، من استعادة وضع الجسم الثلاثي الأبعاد بشكل مستقر ودقيق. نقيم طريقتنا على مقاييس الكشف عن الأجسام في مجموعة اختبار KITTI الصعبة، سواء بالنسبة للمقياس الرسمي لتقدير ориانتة الجسم الثلاثية الأبعاد أو بالنسبة لدقة المربعات الحدودية الثلاثية الأبعاد الناتجة. رغم بساطتها المفهومية، فإن طريقتنا تتفوق على الأساليب الأكثر تعقيدًا وبذلًا للجهد الحاسوبي التي تستفيد من تقسيم الصور إلى فئاتها الدلالية (Semantic Segmentation) وتقسيم الصور حسب المستوي الفردي (Instance Level Segmentation) والافتراضات الأولية للأرض المستوية (Flat Ground Priors) واكتشاف الفئات الفرعية (Sub-category Detection). كما أن خسارتنا المنفصلة-المستمرة تنتج أيضًا نتائجًا رائدة في تقدير وجهة النظر ثلاثية الأبعاد في مجموعة بيانات Pascal 3D+.