HyperAIHyperAI

Command Palette

Search for a command to run...

ثلاثة أشياء يجب أن يعرفها الجميع عن نماذج التحويل البصري

Hugo Touvron Matthieu Cord Alaaeldin El-Nouby Jakob Verbeek Hervé Jégou

الملخص

بعد نجاحهم الأولي في معالجة اللغة الطبيعية، اكتسبت هياكل المحولات (Transformer) انتشارًا سريعًا في مجال الرؤية الحاسوبية، حيث قدمت نتائج من الدرجة المتطورة لمهام مثل تصنيف الصور، والكشف عن الكائنات، والتقسيم، وتحليل الفيديو. نقدّم ثلاث رؤى مستندة إلى متغيرات بسيطة وسهلة التنفيذ لهياكل المحولات البصرية. (1) يمكن معالجة طبقات التراكم (Residual Layers) في هياكل المحولات البصرية، التي تُعالج عادةً تسلسليًا، إلى حد ما بشكل متوازٍ بكفاءة دون التأثير بشكل ملحوظ على الدقة. (2) يكفي تدريب الأوزان الخاصة بطبقات الانتباه لتكيف هياكل المحولات البصرية مع دقة أعلى ومهام تصنيف أخرى، مما يقلل من استهلاك الحوسبة، ويقلل من استهلاك الذاكرة العظمى أثناء التدريب الدقيق، ويسمح بمشاركة الغالبية العظمى من الأوزان عبر المهام المختلفة. (3) يُحسّن إضافة طبقات ما قبل المعالجة للقطع (Patch Pre-processing) المستندة إلى الشبكات العصبية المتعددة الطبقات (MLP) من أداء التدريب ذاتيًا دون إشراف من نوع Bert المبني على قناعات القطع. تم تقييم تأثير هذه الخيارات التصميمية باستخدام مجموعة بيانات ImageNet-1k، وتم التحقق من النتائج على مجموعة اختبار ImageNet-v2. وتم قياس أداء النقل عبر ست مجموعات بيانات أصغر.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
ثلاثة أشياء يجب أن يعرفها الجميع عن نماذج التحويل البصري | مستندات | HyperAI