ASteISR: تكييف نموذج التدريب المسبق لتحسين دقة الصور الفردية لتحقيق تحسين كفاءة دقة الصور الاستريو

رغم التقدم في نموذج التدريب المسبق ثم التعديل الدقيق في مهام الرؤية المنخفضة المستوى، لا تزال هناك تحديات كبيرة، خاصة فيما يتعلق بزيادة حجم النماذج المدربة مسبقًا مثل استهلاك الذاكرة ووقت التدريب. من المشاكل الأخرى التي تواجهها غالبًا هي النتائج غير الرضية التي تنتج عند تطبيق نماذج الصور الفردية المدربة مسبقًا مباشرة على مجال الصور الثنائية. في هذا البحث، نقترح طريقة فعالة لنقل شبكة التحويل للصورة الفردية ذات الدقة العالية (SISR) المدربة مسبقًا إلى مجال الصور الثنائية ذات الدقة العالية (SteISR) من خلال استخدام طريقة التعديل الدقيق ذو الكفاءة العالية في عدد المعاملات (PEFT). بصفة خاصة، نقدم مفهوم المعدلات الثنائية والمعدلات المكانية التي يتم دمجها في شبكة التحويل SISR المدربة مسبقًا. بعد ذلك، يتم تجميد النموذج SISR المدرب مسبقًا، مما يتيح لنا تعديل هذه المعدلات باستخدام قواعد بيانات الصور الثنائية فقط. عن طريق اعتماد هذه الطريقة للتدريب، نعزز قدرة النموذج SISR على استنتاج الصور الثنائية بدقة بمقدار 0.79 ديسيبل على مجموعة بيانات Flickr1024. تسمح هذه الطريقة بتدريب 4.8% فقط من معاملات النموذج الأصلي، مما يحقق أداءً رائدًا على أربع مقاييس شائعة لـ SteISR. بالمقارنة مع طريقة التعديل الدقيق الكامل الأكثر تعقيدًا، فإن طرقنا تقلل من وقت التدريب واستهلاك الذاكرة بنسبة 57% و15% على التوالي.