منذ 7 أشهر

الملخص

في هذا البحث، نتناول مهمة تقسيم المشهد من خلال التقاط الارتباطات السياقية الغنية بناءً على آلية الذكاء الانتباهي (self-attention). على عكس الأعمال السابقة التي تلتقط السياقات من خلال دمج الخصائص متعددة المقياس، نقترح شبكات انتباه مزدوجة (Dual Attention Networks - DANet) لدمج الخصائص المحلية مع ارتباطاتها العالمية بشكل تكيفي. تحديداً، نضيف نوعين من وحدات الانتباه فوق الشبكة العصبية التقليدية ذات التوسع (dilated FCN)، والتي تُنمذِج الارتباطات الدلالية في الأبعاد المكانية والقنوات على التوالي. يقوم وحدة الانتباه المكاني بجمع الخصائص في كل موقع بشكل اختياري عن طريق مجموع مرجح للخصائص في جميع المواقع. ستكون الخصائص المشابهة مرتبطة ببعضها البعض بغض النظر عن المسافات بينها. وفي الوقت نفسه، تقوم وحدة الانتباه القنوات بتوكيد الخرائط القنواتية المرتبطة بشكل اختياري من خلال دمج الخصائص المرتبطة بين جميع الخرائط القنواتية. نقوم بجمع مخرجات الوحدتين لتحسين تمثيل الخصائص بشكل أكبر، مما يساهم في تحقيق نتائج تقسيم أكثر دقة. حققنا أداءً جديدًا ومتميزًا في تقسيم المشهد على ثلاثة مجموعات بيانات صعبة وهي Cityscapes وPASCAL Context وCOCO Stuff. وبشكل خاص، حققنا درجة Mean IoU قدرها 81.5% على مجموعة اختبار Cityscapes دون استخدام البيانات الخشنة. نجعل الكود والنموذج المدرب متاحين للعامة في الرابط https://github.com/junfu1115/DANet.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار