HyperAIHyperAI
منذ 11 أيام

ImVoxelNet: تProjection الصور إلى مكعبات للكشف العام ثلاثي الأبعاد عن الأجسام باستخدام منظور واحد ومنظور متعدد

Danila Rukhovich, Anna Vorontsova, Anton Konushin
ImVoxelNet: تProjection الصور إلى مكعبات للكشف العام ثلاثي الأبعاد عن الأجسام باستخدام منظور واحد ومنظور متعدد
الملخص

في هذه الورقة، نقدم مهمة الكشف عن الأجسام ثلاثية الأبعاد القائمة على الصور الملونة متعددة الزوايا (RGB) كمشكلة تحسين من النهاية إلى النهاية. ولحل هذه المشكلة، نقترح ImVoxelNet، وهي طريقة جديدة بالكامل تعتمد على التحويل التكاملي للكشف عن الأجسام ثلاثية الأبعاد، وتعتمد على صور RGB أحادية أو متعددة الزوايا. يمكن أن يختلف عدد الصور الأحادية في كل إدخال متعدد الزوايا أثناء التدريب والاستنتاج؛ ففي الواقع، قد يكون هذا العدد مختلفًا لكل إدخال متعدد الزوايا. وتُظهر ImVoxelNet كفاءة عالية في معالجة المشاهد الداخلية والخارجية، مما يجعلها أداة عامة الاستخدام. وبشكل خاص، تحقق أفضل النتائج المُسجَّلة حتى الآن في كشف السيارات على معايير KITTI (أحادية الزاوية) وnuScenes (متعددة الزوايا) بين جميع الطرق التي تقبل صور RGB. علاوة على ذلك، تتفوّق على الطرق الحالية القائمة على صور RGB في كشف الأجسام ثلاثية الأبعاد على مجموعة بيانات SUN RGB-D. كما تُحدِّد ImVoxelNet معيارًا جديدًا في كشف الأجسام ثلاثية الأبعاد متعددة الزوايا على مجموعة بيانات ScanNet. يتوفر الكود المصدري والنموذج المدرب عبر الرابط التالي: https://github.com/saic-vul/imvoxelnet.

ImVoxelNet: تProjection الصور إلى مكعبات للكشف العام ثلاثي الأبعاد عن الأجسام باستخدام منظور واحد ومنظور متعدد | أحدث الأوراق البحثية | HyperAI