HyperAIHyperAI
منذ 11 أيام

VoxelNeXt: شبكة VoxelNet شبه متفرقة بالكامل للكشف عن الأجسام ثلاثية الأبعاد وتتبعها

Yukang Chen, Jianhui Liu, Xiangyu Zhang, Xiaojuan Qi, Jiaya Jia
VoxelNeXt: شبكة VoxelNet شبه متفرقة بالكامل للكشف عن الأجسام ثلاثية الأبعاد وتتبعها
الملخص

عادةً ما تعتمد كاشفات الأشياء ثلاثية الأبعاد على وسائط مُصممة يدويًا، مثل "الأنكشات" (anchors) أو "المراكز" (centers)، وتحوّل الإطارات المُستخدمة جيدًا في البعدين إلى البعد الثالث. وبالتالي، يُطلب من الميزات المكعبية النادرة (sparse voxel features) أن تُحوّل إلى كثيفة (densified) ثم تُعالج بواسطة وحدات تنبؤ كثيفة، مما يُنطوي بالضرورة على تكلفة حسابية إضافية. في هذه الورقة، نقترح بدلاً من ذلك إطار VoxelNext للكشف الكامل عن الأشياء ثلاثية الأبعاد باستخدام تمثيلات نادرة. جوهر رؤيتنا هو التنبؤ بالأشياء مباشرةً بناءً على الميزات المكعبية النادرة، دون الاعتماد على وسائط مُصممة يدويًا. يعتمد نموذجنا القوي VoxelNeXt، الذي يستخدم شبكة تلافيفية نادرة (sparse convolutional network)، على الكشف والتعقب للأشياء ثلاثية الأبعاد بالكامل من خلال الميزات المكعبية. يُعد هذا الإطار أنيقًا وفعالًا، ولا يحتاج إلى تحويل من نادر إلى كثيف، ولا إلى معالجة ما بعد التنبؤ (NMS). حقق نهجنا توازنًا أفضل بين السرعة والدقة مقارنةً ببقية كاشفات الأطر الرئيسية على مجموعة بيانات nuScenes. لأول مرة، نُظهر أن تمثيلًا مبنيًا بالكامل على المكعبات النادرة يعمل بشكل جيد في الكشف عن الأشياء ثلاثية الأبعاد باستخدام بيانات الليدار والتعقب. وقد أثبتت التجارب الواسعة على مجموعات بيانات nuScenes وWaymo وArgoverse2 فعالية نهجنا. وبلا إضافات مُضافة، يتفوّق نموذجنا على جميع الطرق الحالية القائمة على الليدار في معيار التحقق من التعقب على مجموعة بيانات nuScenes.

VoxelNeXt: شبكة VoxelNet شبه متفرقة بالكامل للكشف عن الأجسام ثلاثية الأبعاد وتتبعها | أحدث الأوراق البحثية | HyperAI