شبكة الانتباه البصري

بينما تم تصميم آلية الانتباه الذاتي في الأصل للمهام المتعلقة معالجة اللغة الطبيعية، فقد أحدثت مؤخرًا ثورة في مجالات متعددة من الرؤية الحاسوبية. ومع ذلك، فإن الطبيعة الثنائية الأبعاد للصور تفرض ثلاث تحديات عند تطبيق آلية الانتباه الذاتي في الرؤية الحاسوبية: (1) معالجة الصور على أنها تسلسلات أحادية البعد يؤدي إلى إهمال هيكلها الثنائي الأبعاد؛ (2) التعقيد التربيعي يصبح مكلفًا جدًا بالنسبة للصور عالية الدقة؛ (3) تركز فقط على التكيف المكاني مع تجاهل التكيف القنوي. في هذه الورقة، نقترح انتباهًا خطيًا جديدًا يُسمى "الانتباه بالكُرَة الكبيرة" (LKA)، والذي يمكّن من ارتباطات ذاتية تكيفية وطويلة المدى في آلية الانتباه الذاتي، مع تجنب عيوبها. بالإضافة إلى ذلك، نقدّم شبكة عصبية تعتمد على LKA تُسمى "شبكة الانتباه البصري" (VAN). وعلى الرغم من بساطتها الشديدة، تتفوّق VAN على الشبكات العصبية التلافيفية (CNNs) والمحولات البصرية (ViTs) ذات الحجم المماثل في مهام متعددة، بما في ذلك تصنيف الصور، وكشف الكائنات، والتقسيم الدلالي، والتقسيم الشامل، وتقدير الوضعية، وغيرها. على سبيل المثال، حققت VAN-B6 دقة قدرها 87.8% على معيار ImageNet، وحققت أداءً جديدًا على مستوى الحالة (58.2 PQ) في مهام التقسيم الشامل. علاوة على ذلك، تفوقت VAN-B2 على Swin-T بنسبة 4% في معيار mIoU (50.1 مقابل 46.1) في مهام التقسيم الدلالي على معيار ADE20K، وبنسبة 2.6% في معيار AP (48.8 مقابل 46.2) في كشف الكائنات على مجموعة بيانات COCO. تقدّم هذه الدراسة طريقة جديدة وقاعدة بسيطة ولكن قوية للمجتمع العلمي. يمكن الوصول إلى الشفرة المصدرية عبر الرابط: https://github.com/Visual-Attention-Network.