HyperAIHyperAI

Command Palette

Search for a command to run...

Transformer في Transformer

Kai Han An Xiao Enhua Wu Jianyuan Guo Chunjing Xu Yunhe Wang

الملخص

يُعدّ المُحَوِّل (Transformer) نوعًا جديدًا من الهياكل العصبية التي تُحَوِّل البيانات المُدخلة إلى ميزات قوية من خلال آلية الانتباه (attention mechanism). بشكل أساسي، يُقسِّم محولات الرؤية الصور المُدخلة إلى عدة قطع محلية، ثم يُحسب تمثيل كل قطعة والعلاقة بينها. وبما أن الصور الطبيعية معقدة للغاية وتحتوي على تفاصيل وغنى في المعلومات اللونية، فإن دقة التقسيم إلى قطع لا تكفي لاستخراج ميزات الكائنات المختلفة من حيث الحجم والموقع. في هذه الورقة، نشير إلى أن آلية الانتباه داخل هذه القطع المحلية تُعدّ أيضًا أمرًا بالغ الأهمية لبناء محولات بصرية عالية الأداء، ونستعرض بنية جديدة تُسمى "المُحَوِّل داخل المُحَوِّل" (Transformer iN Transformer - TNT). وبشكل محدد، نُعتبر القطع المحلية (مثل 16×16) كـ"جمل بصرية"، ونُقدِّم تقسيمها إلى قطع أصغر (مثل 4×4) تُسمى "كلمات بصرية". ويُحسب انتباه كل كلمة مع غيرها من الكلمات ضمن الجملة البصرية المحددة، وبتكاليف حسابية ضئيلة جدًا. ثم تُجمَع الميزات الناتجة عن الكلمات والجمل لتعزيز قدرة التمثيل. وقد أظهرت التجارب على عدة معايير أداءً فعّالًا للبنية المقترحة TNT، حيث حققنا دقة أعلى بنسبة 81.5% في التصنيف الأول (top-1 accuracy) على مجموعة بيانات ImageNet، أي ما يعادل ارتفاعًا قدره 1.7% مقارنةً بأفضل محولات بصرية حالية عند نفس التكلفة الحسابية. ويُتاح كود PyTorch على الرابط: https://github.com/huawei-noah/CV-Backbones، بينما يُتاح كود MindSpore على الرابط: https://gitee.com/mindspore/models/tree/master/research/cv/TNT.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp