منذ 17 أيام

ثلاثة أشياء يجب أن يعرفها الجميع عن نماذج التحويل البصري

Hugo Touvron, Matthieu Cord, Alaaeldin El-Nouby, Jakob Verbeek, Hervé Jégou

الملخص

بعد نجاحهم الأولي في معالجة اللغة الطبيعية، اكتسبت هياكل المحولات (Transformer) انتشارًا سريعًا في مجال الرؤية الحاسوبية، حيث قدمت نتائج من الدرجة المتطورة لمهام مثل تصنيف الصور، والكشف عن الكائنات، والتقسيم، وتحليل الفيديو. نقدّم ثلاث رؤى مستندة إلى متغيرات بسيطة وسهلة التنفيذ لهياكل المحولات البصرية. (1) يمكن معالجة طبقات التراكم (Residual Layers) في هياكل المحولات البصرية، التي تُعالج عادةً تسلسليًا، إلى حد ما بشكل متوازٍ بكفاءة دون التأثير بشكل ملحوظ على الدقة. (2) يكفي تدريب الأوزان الخاصة بطبقات الانتباه لتكيف هياكل المحولات البصرية مع دقة أعلى ومهام تصنيف أخرى، مما يقلل من استهلاك الحوسبة، ويقلل من استهلاك الذاكرة العظمى أثناء التدريب الدقيق، ويسمح بمشاركة الغالبية العظمى من الأوزان عبر المهام المختلفة. (3) يُحسّن إضافة طبقات ما قبل المعالجة للقطع (Patch Pre-processing) المستندة إلى الشبكات العصبية المتعددة الطبقات (MLP) من أداء التدريب ذاتيًا دون إشراف من نوع Bert المبني على قناعات القطع. تم تقييم تأثير هذه الخيارات التصميمية باستخدام مجموعة بيانات ImageNet-1k، وتم التحقق من النتائج على مجموعة اختبار ImageNet-v2. وتم قياس أداء النقل عبر ست مجموعات بيانات أصغر.