HyperAIHyperAI

Command Palette

Search for a command to run...

الخصائص الناشئة في التحولات البصرية ذاتية الإشراف

Mathilde Caron Hugo Touvron Ishan Misra Hervé Jegou Julien Mairal Piotr Bojanowski Armand Joulin

الملخص

في هذه الورقة، نطرح السؤال حول ما إذا يوفر التعلم الذاتي بدون إشراف خصائص جديدة لمتحول الرؤية (Vision Transformer - ViT) تتفوق بها على شبكات التلافيف (Convolutional Networks - Convnets). بالإضافة إلى حقيقة أن تكييف طرق التعلم الذاتي بدون إشراف لهذه الهندسة يعمل بشكل متميز، نلاحظ النقاط التالية: أولاً، تحتوي ميزات ViT التي تم تدريبها بطريقة التعلم الذاتي بدون إشراف على معلومات صريحة حول تقسيم الصورة إلى معاني (Semantic Segmentation)، والتي لا تظهر بوضوح في ViTs المشرف عليها أو في Convnets. ثانياً، تعتبر هذه الميزات أيضًا تصنيفات جيدة لـ k-NN، حيث تصل إلى 78.3% من الدقة في المرتبة الأولى على ImageNet باستخدام ViT صغير. كما أن دراستنا تسليط الضوء على أهمية مُشغّل الزخم (Momentum Encoder)، وتدريب متعدد الأقطار (Multi-Crop Training)، واستخدام الأقسام الصغيرة (Small Patches) مع ViTs. نقوم بتنفيذ نتائجنا في طريقة تعلم ذاتي بسيطة تُسمى DINO، والتي نعتبرها شكلاً من أشكال التقطير الذاتي بدون علامات. نوضح التناغم بين DINO و ViTs من خلال تحقيق دقة 80.1% في المرتبة الأولى على ImageNet في التقييم الخطي باستخدام ViT-Base.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp