HyperAIHyperAI

Command Palette

Search for a command to run...

ديت ثري: انتقام فيت

Hugo Touvron Matthieu Cord Hervé Jégou

الملخص

نظام التحويل البصري (Vision Transformer (ViT)) هو بنية عصبية بسيطة يمكن استخدامها لأداء عدة مهام في الرؤية الحاسوبية. يمتلك هذا النظام قيودًا محدودة فيما يتعلق بالبدائل المدمجة في البنية المعمارية، على عكس الهياكل الحديثة التي تدمج بدائل متعلقة ببيانات الإدخال أو بمهام محددة. تُظهر الدراسات الحديثة أن نماذج ViT تستفيد بشكل كبير من التدريب الذاتي المسبق، وخاصةً التدريب من نوع Bert مثل BeiT. في هذا البحث، نعيد النظر في عملية التدريب المراقبة لـ ViT. تعتمد إجراءاتنا على وصفة تم تقديمها سابقًا لتدريب نموذج ResNet-50، مع تبسيطها. وتشمل الوصفة إجراء جديدًا بسيطًا للتعديل على البيانات، يتضمن فقط ثلاث عمليات تعديل، وهو أقرب إلى الممارسة المستخدمة في التدريب الذاتي المسبق. تُظهر تقييماتنا في تصنيف الصور (ImageNet-1k مع وبدون التدريب المسبق على ImageNet-21k)، والتعلم الانتقالي، والترميز الدلالي (semantic segmentation) أن إجراءاتنا تتفوق بشكل كبير على الوصفات السابقة للتدريب الكامل المراقب لنموذج ViT. كما تُظهر النتائج أن أداء نموذج ViT المدرب بالطريقة المراقبة يُقارن بأداء الهياكل الحديثة الأخرى. يمكن أن تُستخدم هذه النتائج كأساس أفضل (baselines) للدراسات الحديثة التي تُظهر نتائج التدريب الذاتي المسبق على نماذج ViT.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
ديت ثري: انتقام فيت | مستندات | HyperAI