HyperAIHyperAI
منذ 3 أشهر

مُشَكِّل السياق المُشفَّر للتعلم التمثيلي التلقائي التحصيل

Xiaokang Chen, Mingyu Ding, Xiaodi Wang, Ying Xin, Shentong Mo, Yunhao Wang, Shumin Han, Ping Luo, Gang Zeng, Jingdong Wang
مُشَكِّل السياق المُشفَّر للتعلم التمثيلي التلقائي التحصيل
الملخص

نقدّم منهجية جديدة للنمذجة المُقنّعة للصور (MIM)، تُسمّى المُشفّر السياقي (CAE)، لتمهيد التمثيل التلقائي التدريبي (self-supervised representation pretraining). يتم تدريب المشفر (encoder) مسبقًا من خلال إجراء تنبؤات في فضاء التمثيل المشفر. تشمل مهام التدريب المسبق مهامتين: تنبؤ التمثيل المقنّع – حيث يتم التنبؤ بتمثيلات الصور المقنّعة، وإعادة بناء الصور المقنّعة – حيث يتم إعادة بناء الصور المقنّعة. يتكون الشبكة من بنية مشفر-مُعادل-مُفكّك: يأخذ المشفر الصور المرئية كمدخلات؛ ويُقدّر المُعادل (regressor) تمثيلات الصور المقنّعة، والتي من المتوقع أن تكون متماشية مع التمثيلات المحسوبة بواسطة المشفر، باستخدام تمثيلات الصور المرئية ومواقع الصور المرئية والمقنّعة؛ ثم يُعيد المُفكّك (decoder) بناء الصور المقنّعة من التمثيلات المشفرة المُنبَّأة. يُشجّع تصميم CAE على فصل عملية تعلّم المشفر (التمثيل) عن إكمال المهام المرتبطة بها: مهام تنبؤ التمثيل المقنّع وإعادة بناء الصور المقنّعة، كما أظهرت التجارب العملية أن إجراء التنبؤات في فضاء التمثيل المشفر يُفيد بشكل واضح في تعلّم التمثيلات. وقد أثبتنا فعالية CAE من خلال الأداء المتفوّق في المهام اللاحقة: التجزئة الدلالية، والكشف عن الكائنات، والتجزئة الحالة، والتصنيف. سيتم إتاحة الكود على الرابط: https://github.com/Atten4Vis/CAE.