MVTN: شبكة التحويل متعددة الآراء لتمييز الأشكال ثلاثية الأبعاد

أثبتت طرق الإسقاط متعددة المناظر قدرتها على تحقيق أداء متميز في مجال التعرف على الأشكال ثلاثية الأبعاد. تقوم هذه الطرق بتعلم طرق مختلفة لدمج المعلومات من عدة مناظر. ومع ذلك، فإن نقاط النظر للكاميرات لهذه المناظر غالبًا ما تكون محددة بطريقة تقريبية وثابتة لجميع الأشكال. لتجاوز نقص الديناميكية في الطرق الحالية متعددة المناظر، نقترح تعلم تلك نقاط النظر. بشكل خاص، نقدم شبكة التحويل متعددة المناظر (MVTN) التي تقدر النقاط البصرية المثلى للتعرف على الأشكال ثلاثية الأبعاد، مستندة إلى التطورات في الرسم التفاضلي (differentiable rendering). نتيجة لذلك، يمكن تدريب MVTN بشكل شامل مع أي شبكة متعددة المناظر للتصنيف ثلاثي الأبعاد. ندمج MVTN في خط أنابيب جديد ومتكيف يمكنه رسم الشبكات ثلاثية الأبعاد أو السحب النقطية. يظهر MVTN زيادة واضحة في الأداء في مهام تصنيف الأشكال ثلاثية الأبعاد واسترجاعها دون الحاجة إلى إشراف تدريبي إضافي. وفي هذه المهام، يحقق MVTN أداءً متميزًا على مجموعة بيانات ModelNet40 وShapeNet Core55 وأحدث وأكثر واقعية مجموعة بيانات ScanObjectNN (بما يصل إلى 6% من التحسن). وبشكل مثير للإعجاب، نوضح أيضًا أن MVTN يمكنه توفير ثبات الشبكة ضد الدوران والاخفاء في المجال الثلاثي الأبعاد. الكود متاح على الرابط https://github.com/ajhamdi/MVTN .