HyperAIHyperAI
منذ 11 أيام

تحسين تقدير وضعية الكائن ذات 6 درجات من الحرية من خلال دمج الوسائط المتعددة: معمارية هجينة من الشبكات العصبية التلافيفية مع تكامل عبر الطبقات والوسائط المختلفة

{Qiang Zhang, Qing Ma, Hao Wei, Xueying Sun, Zihang Wang}
الملخص

في الآونة الأخيرة، لاقت تطبيقات بيانات RGB-D في مهام استشعار الروبوتات اهتمامًا كبيرًا في مجالات مثل الروبوتات والقيادة الذاتية. ومع ذلك، يكمن التحدي البارز في هذا المجال في التأثير الكبير الذي تُحدثه متانة الميزات على مهام التجزئة (segmentation) وتقدير الموضع (pose estimation). ولحل هذا التحدي، اقترحنا معمارية مبتكرة من نوع شبكة عصبية تلافيفية (CNN) هجينة مكونة من مرحلتين، تربط بين التجزئة وتقدير الموضع بشكل متزامن. وتحديدًا، طوّرنا وحدتين: وحدة التفاعل بين الوسائط (Cross-Modal, CM) ووحدة التفاعل بين الطبقات (Cross-Layer, CL)، بهدف استغلال المعلومات المكملة من الوسائط البصرية (RGB) والعمق، بالإضافة إلى الميزات الهرمية من الطبقات المختلفة في الشبكة. وقد ساهمت استراتيجية دمج الوحدتين CM وCL في تحسين دقة التجزئة بشكل ملحوظ من خلال التقاط معلومات مكانيّة وسياقية فعّالة. علاوةً على ذلك، قمنا بدمج وحدة انتباه كتلة التلافيف (Convolutional Block Attention Module - CBAM)، التي تقوم بإعادة ضبط متجهات الميزات بشكل ديناميكي، مما يمكّن الشبكة من التركيز على المناطق والقنوات الأكثر إفادة، وبالتالي تعزيز الأداء العام لمهام تقدير الموضع. أجرينا تجارب واسعة على مجموعات بيانات معيارية لتقييم الطريقة المقترحة، وحققنا نتائج استثنائية في تقدير موضع الهدف، حيث بلغت الدقة المتوسطة 94.5% باستخدام مقياس AUC لـ ADD-S، وبلغت نسبة 97.6% من الحالات التي يكون فيها ADD-S أقل من 2 سم. تُظهر هذه النتائج الأداء المتفوّق للطريقة المقترحة.

تحسين تقدير وضعية الكائن ذات 6 درجات من الحرية من خلال دمج الوسائط المتعددة: معمارية هجينة من الشبكات العصبية التلافيفية مع تكامل عبر الطبقات والوسائط المختلفة | أحدث الأوراق البحثية | HyperAI