HyperAIHyperAI

Command Palette

Search for a command to run...

TransNeXt: إدراك بصري مركزي قوي لمحولات الرؤية

Dai Shi

الملخص

بسبب تأثير تدهور العمق في الاتصالات المتبقية، غالبًا ما تفشل النماذج الفعالة لمحولات الرؤية التي تعتمد على تراكيب الطبقات لتداول المعلومات في إقامة خلط كافٍ للمعلومات، مما يؤدي إلى إدراك بصري غير طبيعي. ولحل هذه المشكلة، نقترح في هذه الورقة مُعامل خلط الرموز المسمى "الانتباه المجمّع" (Aggregated Attention)، وهو تصميم مستوحى من الطبيعة يُحاكي الرؤية الفوسيالية الحيوية والحركة المستمرة للعين، مع تمكين كل رمز على خريطة الميزات من امتلاك إدراك عالمي. علاوةً على ذلك، ندمج رموز قابلة للتعلم تتفاعل مع الاستعلامات والقيود التقليدية، مما يُثري توليد مصفوفات الارتباط بشكل أكبر من مجرد الاعتماد على التشابه بين الاستعلامات والقيود. لا تعتمد طريقة عملنا على التراكيب لتداول المعلومات، وبالتالي تتجنب بشكل فعّال تدهور العمق وتحقق إدراكًا بصريًا طبيعيًا. وبالإضافة إلى ذلك، نقترح "GLU التكاملي" (Convolutional GLU)، وهو معالج قناة يُسدّ الفجوة بين آلية GLU وآلية SE، حيث يمنح كل رمز انتباهًا قناةً بناءً على ميزات الصورة المجاورة له، مما يعزز قدرة النموذج على النمذجة المحلية وقوته المقاومة. ونُدمج بين الانتباه المجمّع وGLU التكاملي لخلق عصب خلفي بصري جديد يُسمى TransNeXt. تُظهر التجارب الواسعة أن TransNeXt تحقق أداءً متقدمًا جدًا على عدة أحجام نموذجية. عند دقة 2242224^22242، تصل TransNeXt-Tiny إلى دقة ImageNet البالغة 84.0%، متفوّقةً على ConvNeXt-B بـ 69% أقل من عدد المعاملات. بينما تحقق TransNeXt-Base دقة ImageNet تبلغ 86.2% ودقة ImageNet-A تبلغ 61.6% عند دقة 3842384^23842، وتحقيق mAP للكشف عن الكائنات في COCO يبلغ 57.1، وmIoU لتصنيف الدلالة في ADE20K يبلغ 54.7.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
TransNeXt: إدراك بصري مركزي قوي لمحولات الرؤية | مستندات | HyperAI