HyperAIHyperAI
منذ 17 أيام

RAMS-Trans: محول متعدد المقياسات بانتباه متكرر للتعرف الدقيق على الصور

Yunqing Hu, Xuan Jin, Yin Zhang, Haiwen Hong, Jingfeng Zhang, Yuan He, Hui Xue
RAMS-Trans: محول متعدد المقياسات بانتباه متكرر للتعرف الدقيق على الصور
الملخص

في التعرف على الصور بدقة عالية (FGIR)، يُعدّ توجيه الانتباه إلى مناطق معينة وتكبيرها عاملاً مهمًا، وقد تم استكشافه بشكل واسع من خلال النماذج القائمة على الشبكات العصبية التلافيفية (CNNs). وقد حققت النماذج الحديثة من نوع المحولات البصرية (ViT) نتائج واعدة في مهام الرؤية الحاسوبية. مقارنةً بالـ CNNs، يُعدّ تسلسل الصور طريقة جديدة تمامًا. ومع ذلك، فإن ViT محدود في حجم مجال الاستقبال (receptive field)، وبالتالي يفتقر إلى الانتباه المحلي مثل CNNs بسبب الحجم الثابت للقطع (patches)، ولا يمكنه إنتاج ميزات متعددة المقاييس لتعلم انتباه مناطق تمييزية. لتمكين تعلّم انتباه مناطق تمييزية فعّال دون الحاجة إلى تسميات مربعات أو أجزاء (box/part annotations)، نستخدم قوة أوزان الانتباه لقياس أهمية رموز القطع (patch tokens) المقابلة للصور الأصلية. نقترح نموذجًا يُسمى "المحول المتكرر الانتباهي متعدد المقاييس" (RAMS-Trans)، الذي يستخدم انتباه التحويل (self-attention) في المحول لتعلّم انتباه مناطق تمييزية تمييزية بشكل متكرر ومتعدد المقاييس. وبشكل خاص، يرتكز نهجنا على وحدة اقتراح القطع الديناميكية (DPPM) الموجهة لتكبير المناطق، والتي تكمل دمج القطع الصور متعددة المقاييس. تبدأ DPPM بقطع صور بحجم كامل، ثم تُدرّج تدريجيًا تكبير انتباه المنطقة، وتُولّد قطعًا جديدة من المستوى العالمي إلى المحلي، باستخدام شدة أوزان الانتباه الناتجة في كل مقياس كمؤشر. يعتمد نهجنا فقط على أوزان الانتباه التي تأتي مع ViT نفسه، ويمكن تدريبه بسهولة بطريقة نهاية إلى نهاية (end-to-end). أظهرت التجارب الواسعة أن RAMS-Trans يتفوّق على الطرق المعاصرة، بما في ذلك النماذج الفعّالة القائمة على CNNs، ويحقق نتائج رائدة (state-of-the-art) على ثلاث مجموعات بيانات معيارية.

RAMS-Trans: محول متعدد المقياسات بانتباه متكرر للتعرف الدقيق على الصور | أحدث الأوراق البحثية | HyperAI