Command Palette
Search for a command to run...
VoxelNet: التعلم من النهاية إلى النهاية للكشف عن الكائنات ثلاثية الأبعاد المستندة إلى سحابات النقاط
VoxelNet: التعلم من النهاية إلى النهاية للكشف عن الكائنات ثلاثية الأبعاد المستندة إلى سحابات النقاط
Zhou Yin Tuzel Oncel
الملخص
تمثيل الكائنات بدقة في السحابات ثلاثية الأبعاد من النقاط يُعد مشكلة مركزية في العديد من التطبيقات، مثل التنقل الذاتي، وروبوتات التنظيف المنزلي، وواقع مُعزز/واقع افتراضي. لربط سحابة ليدار ذات كثافة منخفضة جدًا بشبكة اقتراح مناطق (RPN)، ركزت معظم الجهود الحالية على تمثيلات الميزات المُصممة يدويًا، مثل التصوير من منظور الطيور (Bird's Eye View). في هذا العمل، نزيل الحاجة إلى هندسة الميزات اليدوية للسحابات ثلاثية الأبعاد، ونُقدّم VoxelNet، وهي شبكة كشف ثلاثية الأبعاد عامة تُوحِّد عملية استخراج الميزات وتقدير الصناديق المحيطة (bounding box) في شبكة عميقة واحدة، قابلة للتدريب من الطرفين إلى الطرفين (end-to-end). وبشكل خاص، تقوم VoxelNet بتقسيم السحابة ثلاثية الأبعاد إلى مكعبات ثلاثية الأبعاد (Voxels) متساوية الفواصل، ثم تحول مجموعة النقاط داخل كل مكعب إلى تمثيل موحد للميزات من خلال طبقة ترميز ميزات المكعبات (Voxel Feature Encoding - VFE) التي تم إدخالها حديثًا. وبهذا الشكل، يتم تمثيل السحابة ثلاثية الأبعاد كتمثيل حجمي وصفي، والذي يُربط بعدها بشبكة RPN لإنتاج الكشفات. أظهرت التجارب على معيار كيتّي للكشف عن السيارات أن VoxelNet تتفوق بفارق كبير على أحدث الطرق القائمة على ليدار في الكشف ثلاثي الأبعاد. علاوة على ذلك، تتعلم شبكتنا تمثيلًا فعّالًا تمييزياً للكائنات ذات الهياكل الهندسية المتنوعة، مما يؤدي إلى نتائج واعدة في الكشف ثلاثي الأبعاد عن المشاة والدراجين، باستخدام بيانات ليدار فقط.