HyperAIHyperAI
منذ 2 أشهر

الخصائص الناشئة في التحولات البصرية ذاتية الإشراف

Mathilde Caron; Hugo Touvron; Ishan Misra; Hervé Jégou; Julien Mairal; Piotr Bojanowski; Armand Joulin
الخصائص الناشئة في التحولات البصرية ذاتية الإشراف
الملخص

في هذه الورقة، نطرح السؤال حول ما إذا يوفر التعلم الذاتي بدون إشراف خصائص جديدة لمتحول الرؤية (Vision Transformer - ViT) تتفوق بها على شبكات التلافيف (Convolutional Networks - Convnets). بالإضافة إلى حقيقة أن تكييف طرق التعلم الذاتي بدون إشراف لهذه الهندسة يعمل بشكل متميز، نلاحظ النقاط التالية: أولاً، تحتوي ميزات ViT التي تم تدريبها بطريقة التعلم الذاتي بدون إشراف على معلومات صريحة حول تقسيم الصورة إلى معاني (Semantic Segmentation)، والتي لا تظهر بوضوح في ViTs المشرف عليها أو في Convnets. ثانياً، تعتبر هذه الميزات أيضًا تصنيفات جيدة لـ k-NN، حيث تصل إلى 78.3% من الدقة في المرتبة الأولى على ImageNet باستخدام ViT صغير. كما أن دراستنا تسليط الضوء على أهمية مُشغّل الزخم (Momentum Encoder)، وتدريب متعدد الأقطار (Multi-Crop Training)، واستخدام الأقسام الصغيرة (Small Patches) مع ViTs. نقوم بتنفيذ نتائجنا في طريقة تعلم ذاتي بسيطة تُسمى DINO، والتي نعتبرها شكلاً من أشكال التقطير الذاتي بدون علامات. نوضح التناغم بين DINO و ViTs من خلال تحقيق دقة 80.1% في المرتبة الأولى على ImageNet في التقييم الخطي باستخدام ViT-Base.

الخصائص الناشئة في التحولات البصرية ذاتية الإشراف | أحدث الأوراق البحثية | HyperAI