HyperAIHyperAI

Command Palette

Search for a command to run...

نمط نمذجة الصورة المُغطاة المستقل عن البنية المعمارية – من ViT إلى CNN

Siyuan Li Di Wu Fang Wu Zelin Zang Stan.Z.Li

الملخص

نمط الترميز المُقنَّع للصورة (Masked Image Modeling)، وهو أسلوب تدريب مسبق ذاتي يظهر تطورًا حديثًا، أظهر نجاحًا ملحوظًا في العديد من المهام البصرية التالية باستخدام نماذج الرؤية المبنية على التحويلات (Vision Transformers). ويعتمد مبدأه الأساسي على تغطية جزء من الصورة المدخلة، ثم إعادة بنائها من خلال مهمة ما قبلية (pre-text task). ومع ذلك، لا يزال مبدأ العمل الكامن وراء MIM غير مفهوم بشكل كافٍ، وقد أكدت الدراسات السابقة أن MIM يعمل بشكل رئيسي مع عائلة التحويلات (Transformers) وليست متوافقة مع الشبكات العصبية التلافيفية (CNNs). في هذه الدراسة، لاحظنا أن MIM يُعلّم في جوهره النموذج على تعلّم تفاعلات من الدرجة المتوسطة بين القطع (patches) بشكل أفضل، مما يُعزز استخلاص الميزات بشكل أكثر تعميمًا. ثم قمنا بطرح إطار عمل مُصمم لاستيعاب أي بنية معمارية (Architecture-Agnostic Masked Image Modeling)، يُسمى A2^22MIM، والذي يتوافق مع كل من التحويلات والشبكات العصبية التلافيفية بطريقة موحدة. أظهرت تجارب واسعة على معايير شائعة أن A2^22MIM يتعلم تمثيلات أفضل دون الحاجة إلى تصميم صريح، ويُزوّد نموذج الأساس (backbone) بقدرات أقوى في التحويل إلى مهام تالية متنوعة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp