MixMAE: مُؤَوَّلٌ مُختَلِطٌ ومُسْتَخْفَى لتدريب مُسبَقٍ فعّال للنماذج البصرية الهرمية المُتَّسِعة بـ LLM

في هذه الورقة، نقترح طريقة تدريب مسبق بسيطة ولكن فعالة تُسمى مُشفّر الترميز المختلط والمحجوب (MixMAE)، وهي مناسبة لعدة نماذج نقلة البصريات الهرمية (Vision Transformers). تُستخدم الطرق الحالية لنمذجة الصور المحجوبة (MIM) في نماذج نقلة البصريات الهرمية استبدال مجموعة عشوائية من الرموز المدخلة برمز خاص [MASK]، بهدف استعادة رموز الصورة الأصلية من الصورة المتضررة. ومع ذلك، نلاحظ أن استخدام رمز [MASK] يؤدي إلى تباطؤ كبير في التدريب، ويسبب عدم اتساقًا بين مرحلتي التدريب المسبق والتعديل (pretraining-finetuning)، وذلك بسبب نسبة التحجيب العالية (مثلاً 60٪ في SimMIM). من ناحية أخرى، لا يُدخل MAE أي رموز [MASK] في مشفره على الإطلاق، لكنه غير مناسب لنماذج نقلة البصريات الهرمية. لحل هذه المشكلة وتسريع عملية التدريب المسبق للنماذج الهرمية، نستبدل الرموز المحجوبة لصورة واحدة بالرموز المرئية لصورة أخرى، أي أننا نُكوّن صورة مختلطة. ثم نُجري عملية استرجاع مزدوجة لاستعادة الصور الأصليتين من المدخل المختلط، مما يُحسّن الكفاءة بشكل كبير. وعلى الرغم من إمكانية تطبيق MixMAE على عدة نماذج نقلة بصرية هرمية، فإن هذه الورقة تُركّز على استخدام نموذج Swin Transformer بحجم نافذة كبير، وتوسيعه حتى يصل إلى حجم نموذج ضخم (بما يصل إلى 600 مليون معامل). تُظهر النتائج التجريبية أن MixMAE يمكنه تعلّم تمثيلات بصرية عالية الجودة بكفاءة. وبشكل ملحوظ، حقق MixMAE باستخدام نموذج Swin-B/W14 دقة تصل إلى 85.1٪ في الدرجة الأولى (Top-1) على مجموعة بيانات ImageNet-1K بعد تدريب مسبق لمدة 600 دورة. علاوة على ذلك، تُظهر أداءه في نقل المعرفة على ست مجموعات بيانات أخرى أن MixMAE يتفوّق على الطرق الشائعة السابقة لنمذجة الصور المحجوبة من حيث التوازن بين كفاءة العمليات الحسابية (FLOPs) والأداء. يمكن الاطلاع على الكود المصدر عبر الرابط: https://github.com/Sense-X/MixMIM.