منذ 17 أيام

Transformer في Transformer

Kai Han, An Xiao, Enhua Wu, Jianyuan Guo, Chunjing Xu, Yunhe Wang

الملخص

يُعدّ المُحَوِّل (Transformer) نوعًا جديدًا من الهياكل العصبية التي تُحَوِّل البيانات المُدخلة إلى ميزات قوية من خلال آلية الانتباه (attention mechanism). بشكل أساسي، يُقسِّم محولات الرؤية الصور المُدخلة إلى عدة قطع محلية، ثم يُحسب تمثيل كل قطعة والعلاقة بينها. وبما أن الصور الطبيعية معقدة للغاية وتحتوي على تفاصيل وغنى في المعلومات اللونية، فإن دقة التقسيم إلى قطع لا تكفي لاستخراج ميزات الكائنات المختلفة من حيث الحجم والموقع. في هذه الورقة، نشير إلى أن آلية الانتباه داخل هذه القطع المحلية تُعدّ أيضًا أمرًا بالغ الأهمية لبناء محولات بصرية عالية الأداء، ونستعرض بنية جديدة تُسمى "المُحَوِّل داخل المُحَوِّل" (Transformer iN Transformer - TNT). وبشكل محدد، نُعتبر القطع المحلية (مثل 16×16) كـ"جمل بصرية"، ونُقدِّم تقسيمها إلى قطع أصغر (مثل 4×4) تُسمى "كلمات بصرية". ويُحسب انتباه كل كلمة مع غيرها من الكلمات ضمن الجملة البصرية المحددة، وبتكاليف حسابية ضئيلة جدًا. ثم تُجمَع الميزات الناتجة عن الكلمات والجمل لتعزيز قدرة التمثيل. وقد أظهرت التجارب على عدة معايير أداءً فعّالًا للبنية المقترحة TNT، حيث حققنا دقة أعلى بنسبة 81.5% في التصنيف الأول (top-1 accuracy) على مجموعة بيانات ImageNet، أي ما يعادل ارتفاعًا قدره 1.7% مقارنةً بأفضل محولات بصرية حالية عند نفس التكلفة الحسابية. ويُتاح كود PyTorch على الرابط: https://github.com/huawei-noah/CV-Backbones، بينما يُتاح كود MindSpore على الرابط: https://gitee.com/mindspore/models/tree/master/research/cv/TNT.