HyperAIHyperAI
منذ 2 أشهر

هل يمكن للنماذج الصورية المدربة مسبقًا العملاقة استخراج تمثيلات عامة؟

Lin, Yutong ; Liu, Ze ; Zhang, Zheng ; Hu, Han ; Zheng, Nanning ; Lin, Stephen ; Cao, Yue
هل يمكن للنماذج الصورية المدربة مسبقًا العملاقة استخراج تمثيلات عامة؟
الملخص

النماذج المدربة مسبقًا والمجمدة أصبحت بديلًا قابلًا للتطبيق بدلاً من نموذج التدريب المسبق ثم التعديل الدقيق (الفاين تونينغ) في التعلم النقل. ومع ذلك، فإن عدد المعلمات المتاحة للتكيف مع المهام اللاحقة في النماذج المجمدة قليل نسبيًا، وهو ما يشكل مشكلة في رؤية الحاسوب حيث تختلف المهام بشكل كبير فيما يتعلق بتنسيق الإدخال/الإخراج وأنواع المعلومات ذات القيمة. في هذا البحث، نقدم دراسة حول النماذج المدربة مسبقًا والمجمدة عند تطبيقها على مهام متعددة وممثلة لرؤية الحاسوب، بما في ذلك اكتشاف الأشياء، والتقسيم الدلالي، وتمييز الأنشطة في الفيديو. من خلال هذه التحليلات التجريبية، يجيب عملنا على أسئلة حول أي مهمة تدريب مسبق تناسب أفضل هذا الإعداد المجمد، وكيف يمكن جعل الإعداد المجمد أكثر مرونة للمهام اللاحقة المختلفة، وما هو تأثير حجم النموذج الأكبر. كما نقوم بفحص الحد العلوي للأداء باستخدام نموذج ضخم مدرب مسبقًا ومجمد يحتوي على 3 مليارات معلمة (SwinV2-G)، ونجد أنه يصل إلى أداء تنافسي على مجموعة متنوعة من المقاييس الرئيسية باستخدام شبكة أساسية واحدة مشتركة ومجمدة فقط: 60.0 mAP للصناديق و52.2 mAP للقناعات على اختبار COCO لاكتشاف الأشياء، و57.6 mIoU للاختبار التحقق من الصلاحية على تقسيم ADE20K الدلالي، و81.7 دقة top-1 على تمييز Kinetics-400 لأنشطة الفيديو. من خلال هذا العمل، نأمل أن نوجه المزيد من الاهتمام لهذا المسار الواعد في تجميد النماذج المرئية المدربة مسبقًا.

هل يمكن للنماذج الصورية المدربة مسبقًا العملاقة استخراج تمثيلات عامة؟ | أحدث الأوراق البحثية | HyperAI