HyperAIHyperAI
منذ 3 أشهر

على التدريب المسبق للصور القائم على محولات فعالة للرؤية منخفضة المستوى

Wenbo Li, Xin Lu, Shengju Qian, Jiangbo Lu, Xiangyu Zhang, Jiaya Jia
على التدريب المسبق للصور القائم على محولات فعالة للرؤية منخفضة المستوى
الملخص

أدى التدريب المسبق إلى تحقيق العديد من الأرقام القياسية في مجال الرؤية الحاسوبية عالية المستوى، بينما لم تُبذل سوى محاولات قليلة لاستكشاف كيفية تأثير التدريب المسبق في أنظمة معالجة الصور. في هذه الورقة، نُعدّل استراتيجيات التدريب المسبق القائمة على نماذج الترانسفورمر (Transformer) لتعزيز مهام منخفضة المستوى متعددة. ولتشخيص شامل لتأثير التدريب المسبق، نصمم مجموعة من أدوات التقييم المبنية على مبادئ علمية، تكشف عن تأثيره على التمثيلات الداخلية. تُظهر الملاحظات أن التدريب المسبق يؤدي أدوارًا متميزة بشكل ملحوظ في المهام منخفضة المستوى. على سبيل المثال، يُضفي التدريب المسبق معلومات محلية أكثر في الطبقات العليا في مهام تحسين الدقة (Super-Resolution)، مما يؤدي إلى تحسينات كبيرة في الأداء، في حين لا يؤثر التدريب المسبق بشكل ملحوظ على تمثيلات الميزات الداخلية في مهام إزالة الضوضاء، مما ينتج عنه تحسينات محدودة. بالإضافة إلى ذلك، نستكشف طرقًا مختلفة للتدريب المسبق، ونُظهر أن التدريب المسبق متعدد المهام ذات صلة هو أكثر فعالية وكفاءة في استخدام البيانات مقارنةً بالبدائل الأخرى. وأخيرًا، نوسع دراستنا لتشمل تغيرات في أحجام البيانات والمقاسات النموذجية، وكذلك مقارنات بين الهياكل القائمة على الترانسفورمر والهياكل القائمة على الشبكات العصبية التلافيفية (CNNs). استنادًا إلى هذه الدراسة، نُطور بنجاح نماذج من الطراز الرائد (state-of-the-art) لعدد من المهام منخفضة المستوى. تم إصدار الكود على الرابط التالي: https://github.com/fenglinglwb/EDT.