HyperAIHyperAI
منذ 11 أيام

المحولات البصرية شبه المراقبة بحجم كبير

Zhaowei Cai, Avinash Ravichandran, Paolo Favaro, Manchen Wang, Davide Modolo, Rahul Bhotika, Zhuowen Tu, Stefano Soatto
المحولات البصرية شبه المراقبة بحجم كبير
الملخص

نُجري دراسة حول التعلم شبه المُراقب (SSL) للحوامل البصرية (ViT)، وهي موضوع لم يُستكشف بشكل واسع على الرغم من الاعتماد الواسع النطاق على هياكل ViT في مهام مختلفة. ولحل هذه المشكلة، نقترح مسارًا جديدًا لـ SSL يتكون من ثلاث مراحل: التدريب الأولي غير المُراقب/الذاتي المُراقب، تليه التدريب الدقيق المُراقب، ثم التدريب الدقيق شبه المُراقب. وفي مرحلة التدريب الدقيق شبه المُراقب، نعتمد إطارًا يعتمد على متوسط التحرك الأسي (EMA)-المُدرّس بدلًا من الأسلوب الشهير FixMatch، نظرًا لأن الإطار الأول أكثر استقرارًا ويحقق دقة أعلى للحوامل البصرية شبه المُراقبة. علاوةً على ذلك، نقترح آلية جديدة تُسمى "مزيج احتمالي للوسائط المُزيفة" (probabilistic pseudo mixup) لاستكمال العينات غير المُعلّمة وملصقاتها الاحتمالية، بهدف تحسين الت régularisation، وهو أمر بالغ الأهمية عند تدريب ViTs التي تمتلك قوة تحيّز توليدية ضعيفة. يُسمى الأسلوب المقترح بـ "Semi-ViT"، ويحقق أداءً مماثلًا أو أفضل من نماذج الشبكات العصبية التلافيفية (CNN) في سياق التصنيف شبه المُراقب. كما يتمتع Semi-ViT بمزايا التوسع المميز التي تتمتع بها ViTs، حيث يمكن تمديدها بسهولة إلى نماذج كبيرة الحجم مع تحسّن الدقة بشكل متزايد. على سبيل المثال، يحقق نموذج Semi-ViT-Huge دقة أعلى من 80% في الدرجة الأولى على ImageNet باستخدام فقط 1% من العلامات، وهو ما يُقاس بجودة نموذج Inception-v4 الذي يستخدم 100% من علامات ImageNet.

المحولات البصرية شبه المراقبة بحجم كبير | أحدث الأوراق البحثية | HyperAI