VoxelNet: التعلم من البداية إلى النهاية للكشف عن الأشياء ثلاثية الأبعاد باستخدام السحابة النقطية

الكشف الدقيق عن الأشياء في السحابات النقطية ثلاثية الأبعاد هو مشكلة مركزية في العديد من التطبيقات، مثل الملاحة الذاتية، وروبوتات الحفاظ على المنزل، والواقع المعزز/الافتراضي. لربط سحابة نقاط الليدار ذات الكثافة المنخفضة للغاية بشبكة اقتراح المناطق (RPN)، ركزت معظم الجهود القائمة حتى الآن على تمثيلات الخصائص التي يتم تصميمها يدويًا، مثل الإسقاط العيني للطائر (bird's eye view projection). في هذا العمل، نحن نزيل الحاجة إلى هندسة الخصائص اليدوية للسحابات النقطية ثلاثية الأبعاد ونقترح VoxelNet، وهي شبكة كشف عامة توحّد استخراج الخصائص وتوقع الصناديق الحدودية في مرحلة واحدة، وهي شبكة عميقة قابلة للتدريب من البداية إلى النهاية. بوجه خاص، تقوم VoxelNet بتقسيم سحابة النقاط إلى مكعبات ثلاثية الأبعاد متساوية التباعد وتحويل مجموعة من النقاط داخل كل مكعب إلى تمثيل خاص موحد عبر طبقة ترميز المكعبات الجديدة (VFE). بهذه الطريقة، يتم ترميز السحابة النقطية كتمثيل حجمي وصفي متصل بشبكة اقتراح المناطق لإنتاج الاكتشافات. أظهرت التجارب على مقاييس كشف السيارات في KITTI أن VoxelNet تتفوق بشكل كبير على أفضل طرق الكشف ثلاثي الأبعاد المستندة إلى ليدار. بالإضافة إلى ذلك، تتعلم شبكتنا تمثيلاً فعالاً ومميزًا للأجسام ذات الهندسات المختلفة، مما يؤدي إلى نتائج مشجعة في كشف المشاة والدراجين ثلاثي الأبعاد باستخدام ليدار فقط.