HyperAIHyperAI
منذ 2 أشهر

MVX-Net: شبكة متعددة الوسائط للكشف عن الأشياء ثلاثية الأبعاد

Vishwanath A. Sindagi; Yin Zhou; Oncel Tuzel
MVX-Net: شبكة متعددة الوسائط للكشف عن الأشياء ثلاثية الأبعاد
الملخص

ركزت العديد من الأعمال الحديثة في مجال اكتشاف الأشياء ثلاثية الأبعاد على تصميم هياكل شبكات عصبية قادرة على استهلاك بيانات السحابة النقطية (point cloud). رغم أن هذه الأساليب تظهر أداءً مشجعاً، إلا أنها تعتمد عادةً على وسيلة واحدة فقط ولا تستطيع الاستفادة من المعلومات الواردة من وسائل أخرى مثل الكاميرا. رغم وجود بعض الأساليب التي تقوم بدمج البيانات من وسائل مختلفة، فإن هذه الطرق إما تستخدم خط أنابيب معقد لمعالجة الوسائل بشكل متتابع، أو تقوم بالدمج المتأخر ولا تستطيع التعلم عن التفاعلات بين الوسائل المختلفة في المراحل الأولى. في هذا العمل، نقدم PointFusion وVoxelFusion: طريقتين بسيطتين ومعتمدتين للدمج المبكر بين الوسيلتين RGB والسحابة النقطية، وذلك باستغلال هيكل VoxelNet الذي تم تقديمه مؤخراً. تظهر نتائج التقييم على مجموعة بيانات KITTI تحسينات كبيرة في الأداء مقارنة بالأساليب التي تعتمد فقط على بيانات السحابة النقطية. بالإضافة إلى ذلك، توفر الطريقة المقترحة نتائج تنافسية مع خوارزميات الوسائط المتعددة الأكثر تقدماً، حيث حققت المركز الثاني في خمسة من ست فئات للكشف عن العرض الجوي والكشف ثلاثي الأبعاد في معيار KITTI، باستخدام شبكة مرحلة واحدة بسيطة.

MVX-Net: شبكة متعددة الوسائط للكشف عن الأشياء ثلاثية الأبعاد | أحدث الأوراق البحثية | HyperAI