HyperAIHyperAI

Command Palette

Search for a command to run...

SimMIM: إطار بسيط للنمذجة المُقنّعة للصورة

Zhenda Xie Zheng Zhang Yue Cao Yutong Lin Jianmin Bao Zhuliang Yao Qi Dai Han Hu

الملخص

تُقدّم هذه الورقة إطار عمل SimMIM، وهو إطار بسيط لنمذجة الصور المُغطاة. نُبسّط الطرق ذات الصلة التي تم اقتراحها مؤخرًا دون الحاجة إلى تصميمات خاصة مثل تغطية مقطعية أو تجزئة باستخدام VAE منفصلة أو التجميع (clustering). ولدراسة ما يُمكّن مهمة نمذجة الصور المُغطاة من تعلّم تمثيلات جيدة، نُجرِي دراسة منهجية للمكونات الرئيسية في إطارنا، ونكتشف أن التصميمات البسيطة لكل مكوّن كشفت عن أداءً قويًا جدًا في التعلّم التمثيلي: 1) تغطية عشوائية للصورة المدخلة باستخدام حجم مقطع مُغطى معتدلًا كبيرًا (مثل 32) تُشكّل مهمة مُسبقة قوية؛ 2) تنبؤ القيم الفعلية للبكسلات بالألوان RGB من خلال الانحدار المباشر لا يُقلّ أداءً عن طرق تصنيف المقطع ذات التصميمات المعقدة؛ 3) يمكن أن يكون رأس التنبؤ بسيطًا كطبقة خطية، دون تقليل الأداء مقارنة بالرؤوس الأثقل. باستخدام ViT-B، حققنا دقة تُصوّر 83.8% في التصنيف الأول على ImageNet-1K من خلال التدريب المسبق على نفس المجموعة، متفوّقين على أفضل طريقة سابقة بـ +0.6%. وعند تطبيقه على نموذج أكبر يبلغ حوالي 650 مليون معلمة (SwinV2-H)، حقق أداءً بنسبة 87.1% في التصنيف الأول على ImageNet-1K باستخدام بيانات ImageNet-1K فقط. كما استخدمنا هذا النهج لتسهيل تدريب نموذج بحجم 3 مليار معلمة (SwinV2-G)، حيث تحقّقنا الأداء الأفضل على أربع معايير تمثيلية للرؤية، وباستخدام بيانات أقل بـ 40 مرة مقارنة بالعمل السابق. سيتم إتاحة الكود والنماذج للجمهور عبر الرابط: https://github.com/microsoft/SimMIM.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
SimMIM: إطار بسيط للنمذجة المُقنّعة للصورة | مستندات | HyperAI