HyperAIHyperAI

Command Palette

Search for a command to run...

MixMAE: مُؤَوَّلٌ مُختَلِطٌ ومُسْتَخْفَى لتدريب مُسبَقٍ فعّال للنماذج البصرية الهرمية المُتَّسِعة بـ LLM

Jihao Liu Xin Huang Jinliang Zheng Yu Liu Hongsheng Li

الملخص

في هذه الورقة، نقترح طريقة تدريب مسبق بسيطة ولكن فعالة تُسمى مُشفّر الترميز المختلط والمحجوب (MixMAE)، وهي مناسبة لعدة نماذج نقلة البصريات الهرمية (Vision Transformers). تُستخدم الطرق الحالية لنمذجة الصور المحجوبة (MIM) في نماذج نقلة البصريات الهرمية استبدال مجموعة عشوائية من الرموز المدخلة برمز خاص [MASK]، بهدف استعادة رموز الصورة الأصلية من الصورة المتضررة. ومع ذلك، نلاحظ أن استخدام رمز [MASK] يؤدي إلى تباطؤ كبير في التدريب، ويسبب عدم اتساقًا بين مرحلتي التدريب المسبق والتعديل (pretraining-finetuning)، وذلك بسبب نسبة التحجيب العالية (مثلاً 60٪ في SimMIM). من ناحية أخرى، لا يُدخل MAE أي رموز [MASK] في مشفره على الإطلاق، لكنه غير مناسب لنماذج نقلة البصريات الهرمية. لحل هذه المشكلة وتسريع عملية التدريب المسبق للنماذج الهرمية، نستبدل الرموز المحجوبة لصورة واحدة بالرموز المرئية لصورة أخرى، أي أننا نُكوّن صورة مختلطة. ثم نُجري عملية استرجاع مزدوجة لاستعادة الصور الأصليتين من المدخل المختلط، مما يُحسّن الكفاءة بشكل كبير. وعلى الرغم من إمكانية تطبيق MixMAE على عدة نماذج نقلة بصرية هرمية، فإن هذه الورقة تُركّز على استخدام نموذج Swin Transformer بحجم نافذة كبير، وتوسيعه حتى يصل إلى حجم نموذج ضخم (بما يصل إلى 600 مليون معامل). تُظهر النتائج التجريبية أن MixMAE يمكنه تعلّم تمثيلات بصرية عالية الجودة بكفاءة. وبشكل ملحوظ، حقق MixMAE باستخدام نموذج Swin-B/W14 دقة تصل إلى 85.1٪ في الدرجة الأولى (Top-1) على مجموعة بيانات ImageNet-1K بعد تدريب مسبق لمدة 600 دورة. علاوة على ذلك، تُظهر أداءه في نقل المعرفة على ست مجموعات بيانات أخرى أن MixMAE يتفوّق على الطرق الشائعة السابقة لنمذجة الصور المحجوبة من حيث التوازن بين كفاءة العمليات الحسابية (FLOPs) والأداء. يمكن الاطلاع على الكود المصدر عبر الرابط: https://github.com/Sense-X/MixMIM.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp