المحول المُدرب مسبقًا لمعالجة الصور

مع زيادة قوة الحوسبة للمعدات الحديثة بشكل كبير، أثبتت نماذج التعلم العميق المدربة مسبقًا (مثل BERT و GPT-3) فعاليتها على الطرق التقليدية عند تعلمها على مجموعات بيانات كبيرة. يُعزى التقدم الكبير في هذا المجال بشكل أساسي إلى قدرة التمثيل للشبكية العصبية من نوع transformer وأطرها المتغيرة. في هذه الورقة البحثية، ندرس مهام الرؤية الحاسوبية ذات المستوى المنخفض (مثل إزالة الضوضاء، زيادة الدقة، وإزالة الأمطار) ونطور نموذجًا مدربًا مسبقًا جديدًا، ألا وهو الشبكية العصبية لمعالجة الصور (IPT). لاستخراج القدرات القصوى للشبكية العصبية من نوع transformer، نقترح استخدام مجموعة المعايير المعروفة ImageNet لإنشاء كمية كبيرة من أزواج الصور المشوهة. يتم تدريب النموذج IPT على هذه الصور باستخدام رؤوس متعددة وأذونات متعددة. بالإضافة إلى ذلك، تم تقديم التعلم التضادي لتكيف جيد مع مهام معالجة الصور المختلفة. يمكن استخدام النموذج المدرب مسبقًا بكفاءة في المهمة المرغوبة بعد التعديل الدقيق. بفضل نموذج واحد مدرب مسبقًا فقط، يتفوق IPT على أفضل الأساليب الحالية في مختلف مقاييس الأداء ذات المستوى المنخفض. الكود متاح على https://github.com/huawei-noah/Pretrained-IPT و https://gitee.com/mindspore/mindspore/tree/master/model_zoo/research/cv/IPT