منذ 13 أيام

الشبكات الانتباهية المستندة إلى Transformer للتنبؤ المستمر على مستوى البكسل

Guanglei Yang, Hao Tang, Mingli Ding, Nicu Sebe, Elisa Ricci

الملخص

بينما أظهرت الشبكات العصبية التلافيفية تأثيرًا كبيرًا على مهام الرؤية الحاسوبية المختلفة، إلا أنها تُظهر عادةً قيودًا في نمذجة الاعتماديات طويلة المدى بشكل صريح، وذلك بسبب الطبيعة الموضعية المتأصلة في عملية التلافيف. وقد تم تصميم نماذج المحولات (Transformers) في البداية لمهام معالجة اللغة الطبيعية، وقد برزت كهياكل بديلة تمتلك آلية انتباه ذاتي عالمية بطبيعتها لالتقاط الاعتماديات طويلة المدى. في هذا البحث، نقترح معمارية "TransDepth" التي تستفيد من كلا من الشبكات العصبية التلافيفية ومحولات (Transformers). ولتجنب فقدان الشبكة لقدرتها على التقاط التفاصيل على المستوى المحلي نتيجة اعتمادها على المحولات، نقترح مُفككًا جديدًا يستخدم آليات الانتباه المستندة إلى المفاتيح (gates). ومن المهم الإشارة إلى أن هذه هي المرة الأولى التي تُطبَّق فيها المحولات على مسائل التنبؤ بالبكسل (pixel-wise prediction) التي تتضمن علامات مستمرة (أي تنبؤ العمق من صورة واحدة وتقدير اتجاهات السطوح). وتبين التجارب الواسعة أن المعمارية المقترحة "TransDepth" تحقق أداءً متقدمًا على مستوى الحالة الحالية (state-of-the-art) على ثلاث مجموعات بيانات صعبة. يمكن الوصول إلى الكود الخاص بنا عبر الرابط التالي: https://github.com/ygjwd12345/TransDepth.