استكشاف تمثيلات الهدف لمحاكيات الترميز المُقنَّع

أصبحت النماذج المُقنّعة ذات التشفير التلقائي (Masked Autoencoders) من الأطر التدريبية الشائعة لتعلم التمثيل البصري التلقائي التدريب. تقوم هذه النماذج بحجب جزء عشوائي من المدخلات ثم إعادة بناء الجزء المحجوب وفقًا لتمثيلات الهدف. في هذه الورقة، نُظهر أولًا أن اختيارًا دقيقًا لتمثيل الهدف ليس ضروريًا لتعلم تمثيلات جيدة، حيث تميل التمثيلات المختلفة إلى إنتاج نماذج تُظهر سلوكًا مشابهًا. مستندين على هذا الملاحظة، نقترح نموذجًا متعدد المراحل للنقل المُقنّع (Masked Distillation)، ونستخدم نموذجًا مُهيأ عشوائيًا كمُدرّس، مما يمكّننا من تدريب نماذج ذات قدرة عالية دون الحاجة إلى بذل جهد في تصميم تمثيلات الهدف بدقة. وبشكل مثير للاهتمام، نستكشف لاحقًا استخدام مدرسين بقدرة أكبر، مما يؤدي إلى نماذج مُستفادة (Students) ذات قدرة نقل ملحوظة. وعلى مختلف المهام المتعلقة بالتصنيف، والتعلم المنقول، والكشف عن الكائنات، والتقسيم الدلالي، تُظهر الطريقة المقترحة، والتي تُعرف بـ "النقل المعرفة المُقنّع مع مدرسين مُعززين (dBOT)"، أداءً أفضل بكثير من الطرق السابقة ذات التدريب التلقائي. نأمل أن تُحفّز نتائجنا، فضلًا عن الطريقة المقترحة، الباحثين على إعادة التفكير في الدور الذي تلعبه تمثيلات الهدف في تدريب النماذج المُقنّعة ذات التشفير التلقائي. يُمكن الوصول إلى الشيفرة والنماذج المُدرّبة مسبقًا عبر الرابط التالي: https://github.com/liuxingbin/dbot.