HyperAIHyperAI
منذ 11 أيام

SimMIM: إطار بسيط للنمذجة المُقنّعة للصورة

Zhenda Xie, Zheng Zhang, Yue Cao, Yutong Lin, Jianmin Bao, Zhuliang Yao, Qi Dai, Han Hu
SimMIM: إطار بسيط للنمذجة المُقنّعة للصورة
الملخص

تُقدّم هذه الورقة إطار عمل SimMIM، وهو إطار بسيط لنمذجة الصور المُغطاة. نُبسّط الطرق ذات الصلة التي تم اقتراحها مؤخرًا دون الحاجة إلى تصميمات خاصة مثل تغطية مقطعية أو تجزئة باستخدام VAE منفصلة أو التجميع (clustering). ولدراسة ما يُمكّن مهمة نمذجة الصور المُغطاة من تعلّم تمثيلات جيدة، نُجرِي دراسة منهجية للمكونات الرئيسية في إطارنا، ونكتشف أن التصميمات البسيطة لكل مكوّن كشفت عن أداءً قويًا جدًا في التعلّم التمثيلي: 1) تغطية عشوائية للصورة المدخلة باستخدام حجم مقطع مُغطى معتدلًا كبيرًا (مثل 32) تُشكّل مهمة مُسبقة قوية؛ 2) تنبؤ القيم الفعلية للبكسلات بالألوان RGB من خلال الانحدار المباشر لا يُقلّ أداءً عن طرق تصنيف المقطع ذات التصميمات المعقدة؛ 3) يمكن أن يكون رأس التنبؤ بسيطًا كطبقة خطية، دون تقليل الأداء مقارنة بالرؤوس الأثقل. باستخدام ViT-B، حققنا دقة تُصوّر 83.8% في التصنيف الأول على ImageNet-1K من خلال التدريب المسبق على نفس المجموعة، متفوّقين على أفضل طريقة سابقة بـ +0.6%. وعند تطبيقه على نموذج أكبر يبلغ حوالي 650 مليون معلمة (SwinV2-H)، حقق أداءً بنسبة 87.1% في التصنيف الأول على ImageNet-1K باستخدام بيانات ImageNet-1K فقط. كما استخدمنا هذا النهج لتسهيل تدريب نموذج بحجم 3 مليار معلمة (SwinV2-G)، حيث تحقّقنا الأداء الأفضل على أربع معايير تمثيلية للرؤية، وباستخدام بيانات أقل بـ 40 مرة مقارنة بالعمل السابق. سيتم إتاحة الكود والنماذج للجمهور عبر الرابط: https://github.com/microsoft/SimMIM.

SimMIM: إطار بسيط للنمذجة المُقنّعة للصورة | أحدث الأوراق البحثية | HyperAI