HyperAIHyperAI

Command Palette

Search for a command to run...

ImVoxelNet: تProjection الصور إلى مكعبات للكشف العام ثلاثي الأبعاد عن الأجسام باستخدام منظور واحد ومنظور متعدد

Danila Rukhovich Anna Vorontsova Anton Konushin

الملخص

في هذه الورقة، نقدم مهمة الكشف عن الأجسام ثلاثية الأبعاد القائمة على الصور الملونة متعددة الزوايا (RGB) كمشكلة تحسين من النهاية إلى النهاية. ولحل هذه المشكلة، نقترح ImVoxelNet، وهي طريقة جديدة بالكامل تعتمد على التحويل التكاملي للكشف عن الأجسام ثلاثية الأبعاد، وتعتمد على صور RGB أحادية أو متعددة الزوايا. يمكن أن يختلف عدد الصور الأحادية في كل إدخال متعدد الزوايا أثناء التدريب والاستنتاج؛ ففي الواقع، قد يكون هذا العدد مختلفًا لكل إدخال متعدد الزوايا. وتُظهر ImVoxelNet كفاءة عالية في معالجة المشاهد الداخلية والخارجية، مما يجعلها أداة عامة الاستخدام. وبشكل خاص، تحقق أفضل النتائج المُسجَّلة حتى الآن في كشف السيارات على معايير KITTI (أحادية الزاوية) وnuScenes (متعددة الزوايا) بين جميع الطرق التي تقبل صور RGB. علاوة على ذلك، تتفوّق على الطرق الحالية القائمة على صور RGB في كشف الأجسام ثلاثية الأبعاد على مجموعة بيانات SUN RGB-D. كما تُحدِّد ImVoxelNet معيارًا جديدًا في كشف الأجسام ثلاثية الأبعاد متعددة الزوايا على مجموعة بيانات ScanNet. يتوفر الكود المصدري والنموذج المدرب عبر الرابط التالي: https://github.com/saic-vul/imvoxelnet.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp