نمط نمذجة الصورة المُغطاة المستقل عن البنية المعمارية – من ViT إلى CNN

نمط الترميز المُقنَّع للصورة (Masked Image Modeling)، وهو أسلوب تدريب مسبق ذاتي يظهر تطورًا حديثًا، أظهر نجاحًا ملحوظًا في العديد من المهام البصرية التالية باستخدام نماذج الرؤية المبنية على التحويلات (Vision Transformers). ويعتمد مبدأه الأساسي على تغطية جزء من الصورة المدخلة، ثم إعادة بنائها من خلال مهمة ما قبلية (pre-text task). ومع ذلك، لا يزال مبدأ العمل الكامن وراء MIM غير مفهوم بشكل كافٍ، وقد أكدت الدراسات السابقة أن MIM يعمل بشكل رئيسي مع عائلة التحويلات (Transformers) وليست متوافقة مع الشبكات العصبية التلافيفية (CNNs). في هذه الدراسة، لاحظنا أن MIM يُعلّم في جوهره النموذج على تعلّم تفاعلات من الدرجة المتوسطة بين القطع (patches) بشكل أفضل، مما يُعزز استخلاص الميزات بشكل أكثر تعميمًا. ثم قمنا بطرح إطار عمل مُصمم لاستيعاب أي بنية معمارية (Architecture-Agnostic Masked Image Modeling)، يُسمى A$^2$MIM، والذي يتوافق مع كل من التحويلات والشبكات العصبية التلافيفية بطريقة موحدة. أظهرت تجارب واسعة على معايير شائعة أن A$^2$MIM يتعلم تمثيلات أفضل دون الحاجة إلى تصميم صريح، ويُزوّد نموذج الأساس (backbone) بقدرات أقوى في التحويل إلى مهام تالية متنوعة.