HyperAIHyperAI
منذ 2 أشهر

شبكة الانتباه المزدوج لتقسيم المشهد

Jun Fu; Jing Liu; Haijie Tian; Yong Li; Yongjun Bao; Zhiwei Fang; Hanqing Lu
شبكة الانتباه المزدوج لتقسيم المشهد
الملخص

في هذا البحث، نتناول مهمة تقسيم المشهد من خلال التقاط الارتباطات السياقية الغنية بناءً على آلية الذكاء الانتباهي (self-attention). على عكس الأعمال السابقة التي تلتقط السياقات من خلال دمج الخصائص متعددة المقياس، نقترح شبكات انتباه مزدوجة (Dual Attention Networks - DANet) لدمج الخصائص المحلية مع ارتباطاتها العالمية بشكل تكيفي. تحديداً، نضيف نوعين من وحدات الانتباه فوق الشبكة العصبية التقليدية ذات التوسع (dilated FCN)، والتي تُنمذِج الارتباطات الدلالية في الأبعاد المكانية والقنوات على التوالي. يقوم وحدة الانتباه المكاني بجمع الخصائص في كل موقع بشكل اختياري عن طريق مجموع مرجح للخصائص في جميع المواقع. ستكون الخصائص المشابهة مرتبطة ببعضها البعض بغض النظر عن المسافات بينها. وفي الوقت نفسه، تقوم وحدة الانتباه القنوات بتوكيد الخرائط القنواتية المرتبطة بشكل اختياري من خلال دمج الخصائص المرتبطة بين جميع الخرائط القنواتية. نقوم بجمع مخرجات الوحدتين لتحسين تمثيل الخصائص بشكل أكبر، مما يساهم في تحقيق نتائج تقسيم أكثر دقة. حققنا أداءً جديدًا ومتميزًا في تقسيم المشهد على ثلاثة مجموعات بيانات صعبة وهي Cityscapes وPASCAL Context وCOCO Stuff. وبشكل خاص، حققنا درجة Mean IoU قدرها 81.5% على مجموعة اختبار Cityscapes دون استخدام البيانات الخشنة. نجعل الكود والنموذج المدرب متاحين للعامة في الرابط https://github.com/junfu1115/DANet.

شبكة الانتباه المزدوج لتقسيم المشهد | أحدث الأوراق البحثية | HyperAI