HyperAIHyperAI

Command Palette

Search for a command to run...

ماكسفيت: مُحَوِّل رؤية مُتعدد المحاور

Zhengzhong Tu Hossein Talebi Han Zhang Feng Yang Peyman Milanfar Alan Bovik Yinxiao Li

الملخص

حصلت نماذج التحويل (Transformers) على اهتمام كبير مؤخرًا في مجتمع رؤية الحاسوب. ومع ذلك، فإن عدم قابلية التفكير الذاتي (self-attention) للتوسع بالنسبة لحجم الصورة قد حدّ من اعتمادها الواسع في الهياكل الأساسية (backbones) الحديثة لرؤية الحاسوب. في هذا البحث، نقدم نموذج انتباه فعّال وقابل للتوسع يُسمّى "الانتباه متعدد المحاور"، والذي يتكون من جزأين رئيسيين: انتباه محلي مُقسّم وانتباه عالمي مُتَوَسّع (dilated). تتيح هذه الخيارات التصميمية التفاعلات المكانية العالمية-المحليّة على أي دقة إدخال، وبمجرد التعقيد الخطي. كما نقدّم عنصرًا معماريًا جديدًا من خلال دمج فعّال بين النموذج المُقترح للانتباه والانعكاسات (convolutions)، ونتيجة لذلك نقترح هيكلًا أساسيًا هرميًا بسيطًا يُسمّى MaxViT، وذلك من خلال تكرار الكتلة الأساسية في مراحل متعددة. يُعدّ MaxViT مميزًا لأنه قادر على "رؤية" الصورة بشكل شامل على طول الشبكة بأكملها، حتى في المراحل المبكرة ذات الدقة العالية. نُظهر فعالية نموذجنا في طيف واسع من مهام الرؤية الحاسوبية. في تصنيف الصور، يحقق MaxViT أداءً متقدمًا على مستوى الحالة الحالية (state-of-the-art) في ظروف مختلفة: دون استخدام بيانات إضافية، يحقق MaxViT دقة 86.5% في معيار ImageNet-1K (الدقة الأولى)، وبالاعتماد على التدريب المسبق على ImageNet-21K، يصل إلى دقة 88.7% في الدقة الأولى. بالنسبة للمهام التالية (downstream)، يُظهر MaxViT أداءً متميزًا كهيكل أساسي في كلا من كشف الكائنات وتقييم الجمال البصري. كما نُظهر أن النموذج المُقترح يتمتع بقدرات قوية في النمذجة التوليدية على مجموعة بيانات ImageNet، مما يُبرز الإمكانات العالية لكتل MaxViT كوحدة مرنة وشاملة لرؤية الحاسوب. سيكون الشفرة المصدرية والنموذج المدرب متاحين عبر الرابط: https://github.com/google-research/maxvit.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp