HyperAIHyperAI
منذ 17 أيام

HSPFormer: تحويلة المُنتَظَر المُتَرَتِّبة للإدراك المكاني للتحليل الدلالي

{Guorong Cai, Zongyue Wang, Yiping Chen, Ruisheng Wang, Jinhe Su, Changshe Zhang, Ting Han, Siyu Chen}
الملخص

تلعب الرؤية الدلالية في السيناريوهات المرورية دورًا حاسمًا في أنظمة النقل الذكية. ومع ذلك، غالبًا ما لا تستغل الطرق القائمة على المحولات (Transformer) الإمكانات الكاملة الخاصة بها في فهم مشاهد القيادة بشكل ديناميكي. وتُعد هذه الطرق عادةً مُعَلَّقة نقصًا في الاستدلال المكاني، حيث تفشل في ربط بكسلات الصورة بشكل فعّال بمواقعها المكانية، مما يؤدي إلى انحراف الانتباه. ولحل هذه المشكلة، نُقدّم معمارية جديدة تُسمى "محول الرؤية المكانية الهرمية" (HSPFormer)، والتي تدمج لأول مرة تقدير العمق من صورة واحدة وتقسيم الدلالة (semantic segmentation) في إطار موحد. ونُقدّم شبكة المساعدة للرؤية المكانية للعمق (SDPNet)، وهي إطار لاستخراج الميزات متعددة المقاييس وتوقع خرائط العمق متعددة الطبقات، بهدف إقامة تمايز مكاني هرمي. علاوةً على ذلك، صممنا شبكة المحول الهرمي (HPTNet)، التي تستخدم تقدير العمق كمُدخلات موضعية قابلة للتعلم لتكوين تمثيلات دلالية مرتبطة مكانيًا وإنتاج معلومات سياقية عالمية. وقد أظهرت التجارب على مجموعات بيانات معيارية مثل KITTI-360 وCityscapes وNYU Depth V2 أن HSPFormer يتفوّق على عدة شبكات حديثة متقدمة، ويحقق أداءً واعدًا بـ 66.82% من mIoU في المرتبة الأولى على KITTI-360، و83.8% من mIoU على Cityscapes، و57.7% من mIoU على NYU Depth V2، على التوالي. وسيتم الإفصاح عن الكود المصدر بشكل عام عبر الرابط التالي: https://github.com/SY-Ch/HSPFormer.

HSPFormer: تحويلة المُنتَظَر المُتَرَتِّبة للإدراك المكاني للتحليل الدلالي | أحدث الأوراق البحثية | HyperAI