HyperAIHyperAI
منذ 3 أشهر

MV-DETR: اكتشاف الأشياء الداخلية متعددة الوسائط من خلال نماذج التحويل متعددة المقاطع DETR

Zichao Dong, Yilin Zhang, Xufeng Huang, Hang Ji, Zhan Shi, Xin Zhan, Junbo Chen
MV-DETR: اكتشاف الأشياء الداخلية متعددة الوسائط من خلال نماذج التحويل متعددة المقاطع DETR
الملخص

نقدم_pipeline_ جديدًا يُسمى MV-DETR، وهو أسلوب مبتكر للكشف القائم على الترانسفورمر، يتميز بالكفاءة والفعالية. عند معالجة البيانات المدخلة من نوع RGBD، لاحظنا أن هناك أوزانًا مُدرَّبة مسبقًا قوية جدًا للبيانات البصرية (RGB)، بينما تكون الأداء المماثل أقل فعالية بالنسبة للبيانات المتعلقة بالعمق. أولاً، نؤكد أن الميزات الهندسية والملمسية تُعدّ من العناصر الحاسمة في التعرف على الكائنات، ويمكن ترميزها بشكل منفصل. ثانيًا، نلاحظ أن استخلاص ميزات الملمس البصري يكون أكثر صعوبة مقارنةً باستخلاص الميزات الهندسية في الفضاء ثلاثي الأبعاد. وللأسف، فإن مجموعة بيانات RGBD واحدة فقط تحتوي على آلاف العينات لا تكفي لتدريب مرشح قوي لاستخلاص ميزات الملمس البصري. وأخيرًا، لكن لا يقل أهمية، قمنا بتصميم وحدة خفيفة الوزن تُسمى VG، تتكون من معالج نصي بصري، ومعالج هندسي، واتصال بين البصرية والهندسة (VG connector). مقارنةً بالأساليب الرائدة السابقة مثل V-DETR، أصبح من الواضح أن الفوائد الناتجة من استخدام المعالج البصري المُدرَّب مسبقًا تُظهر نتائج مميزة. وقد أظهرت التجارب الواسعة على مجموعة بيانات ScanNetV2 فعالية طريقة العمل المقترحة. ويجب الإشارة إلى أن طريقة العمل هذه حققت 78% من AP، ما يُعدّ إنجازًا جديدًا على مستوى أفضل الأداء في معيار ScanNetV2.