HyperAIHyperAI
منذ 2 أشهر

كشف الأسرار المظلمة لنمذجة الصور المقنعة

Zhenda Xie; Zigang Geng; Jingcheng Hu; Zheng Zhang; Han Hu; Yue Cao
كشف الأسرار المظلمة لنمذجة الصور المقنعة
الملخص

يُظهر النموذج التصويري المقنّع (MIM) كتدريب مسبق فعاليته في العديد من المهام المرئية اللاحقة، ولكن كيف وأين يعمل MIM لا يزال غير واضح. في هذا البحث، نقارن بين MIM والنموذج التدريبي المشرف عليه السائد لفترة طويلة من خلال وجهين: التصورات والتجارب، لكشف الاختلافات التمثيلية الرئيسية بينهما. من خلال التصورات، نجد أن MIM يجلب تحيز الاستقراء المحلي إلى جميع طبقات النماذج المدربة، بينما تميل النماذج المشرفة عليها إلى التركيز محليًا في الطبقات الأدنى ولكن بشكل أكثر عالمية في الطبقات العليا. قد يكون هذا هو السبب وراء مساعدة MIM لمتحولات الرؤية التي لديها مجال استقبال كبير جدًا على التحسين. باستخدام MIM، يمكن للنموذج الحفاظ على تنوع كبير في رؤوس الانتباه في جميع الطبقات. أما بالنسبه للنماذج المشرفة عليها، فإن التنوع في رؤوس الانتباه يكاد يختفي من الثلاث طبقات الأخيرة، وقلة التنوع تضر بأداء التعديل الدقيق. من خلال التجارب، نجد أن نماذج MIM يمكن أن تؤدي بشكل أفضل بكثير في مهام الهندسة والحركة ذات الدلالات الضعيفة أو مهام التصنيف الدقيق مقارنة بنماذجها المشرفة عليها. بدون أي تعقيدات إضافية، يمكن لنموذج SwinV2-L التقني المعتمد على MIM تحقيق أداء قياسي حديث في تقدير الوضع (78.9 AP على COCO test-dev و 78.0 AP على CrowdPose)، تقدير العمق (0.287 RMSE على NYUv2 و 1.966 RMSE على KITTI)، وتتبع الأشياء الفيديوية (70.7 SUC على LaSOT). بالنسبة لمجموعات البيانات التي يتم فيها فهم الدلالة حيث تكون الفئات مشمولة بشكل كافٍ بالتدريب المسبق المشرف عليه، يمكن لنماذج MIM أيضًا تحقيق أداء نقل تنافسي للغاية. مع فهم أعمق لـ MIM، نأمل أن يعمل بحثنا على تحفيز أبحاث جديدة ومتماسكة في هذا الاتجاه.

كشف الأسرار المظلمة لنمذجة الصور المقنعة | أحدث الأوراق البحثية | HyperAI