منذ 17 أيام

ماكسفيت: مُحَوِّل رؤية مُتعدد المحاور

Zhengzhong Tu, Hossein Talebi, Han Zhang, Feng Yang, Peyman Milanfar, Alan Bovik, Yinxiao Li

الملخص

حصلت نماذج التحويل (Transformers) على اهتمام كبير مؤخرًا في مجتمع رؤية الحاسوب. ومع ذلك، فإن عدم قابلية التفكير الذاتي (self-attention) للتوسع بالنسبة لحجم الصورة قد حدّ من اعتمادها الواسع في الهياكل الأساسية (backbones) الحديثة لرؤية الحاسوب. في هذا البحث، نقدم نموذج انتباه فعّال وقابل للتوسع يُسمّى "الانتباه متعدد المحاور"، والذي يتكون من جزأين رئيسيين: انتباه محلي مُقسّم وانتباه عالمي مُتَوَسّع (dilated). تتيح هذه الخيارات التصميمية التفاعلات المكانية العالمية-المحليّة على أي دقة إدخال، وبمجرد التعقيد الخطي. كما نقدّم عنصرًا معماريًا جديدًا من خلال دمج فعّال بين النموذج المُقترح للانتباه والانعكاسات (convolutions)، ونتيجة لذلك نقترح هيكلًا أساسيًا هرميًا بسيطًا يُسمّى MaxViT، وذلك من خلال تكرار الكتلة الأساسية في مراحل متعددة. يُعدّ MaxViT مميزًا لأنه قادر على "رؤية" الصورة بشكل شامل على طول الشبكة بأكملها، حتى في المراحل المبكرة ذات الدقة العالية. نُظهر فعالية نموذجنا في طيف واسع من مهام الرؤية الحاسوبية. في تصنيف الصور، يحقق MaxViT أداءً متقدمًا على مستوى الحالة الحالية (state-of-the-art) في ظروف مختلفة: دون استخدام بيانات إضافية، يحقق MaxViT دقة 86.5% في معيار ImageNet-1K (الدقة الأولى)، وبالاعتماد على التدريب المسبق على ImageNet-21K، يصل إلى دقة 88.7% في الدقة الأولى. بالنسبة للمهام التالية (downstream)، يُظهر MaxViT أداءً متميزًا كهيكل أساسي في كلا من كشف الكائنات وتقييم الجمال البصري. كما نُظهر أن النموذج المُقترح يتمتع بقدرات قوية في النمذجة التوليدية على مجموعة بيانات ImageNet، مما يُبرز الإمكانات العالية لكتل MaxViT كوحدة مرنة وشاملة لرؤية الحاسوب. سيكون الشفرة المصدرية والنموذج المدرب متاحين عبر الرابط: https://github.com/google-research/maxvit.