HyperAIHyperAI
منذ 2 أشهر

التحكم في نماذج الرؤية واللغة لاستعادة الصور متعددة المهام

Luo, Ziwei ; Gustafsson, Fredrik K. ; Zhao, Zheng ; Sjölund, Jens ; Schön, Thomas B.
التحكم في نماذج الرؤية واللغة لاستعادة الصور متعددة المهام
الملخص

نماذج الرؤية واللغة مثل CLIP قد أظهرت تأثيرًا كبيرًا في مهام مختلفة لتنبؤات الصفر أو بدون تسميات. ومع ذلك، عندما يتعلق الأمر بالرؤية من المستوى المنخفض مثل استعادة الصور، تتدهور أداؤها بشكل كبير بسبب المدخلات التالفة. في هذا البحث، نقدم نموذج رؤية ولغة يدرك التلف (DA-CLIP) لنقل النماذج المسبقة التدريب من الرؤية واللغة إلى مهام الرؤية من المستوى المنخفض كإطار متعدد المهام لاستعادة الصور. وبشكل أكثر تحديدًا، يقوم DA-CLIP بتدريب متحكم إضافي يتكيف مع مُشفر الصور الثابت في CLIP للتنبؤ بمتجهات خصائص عالية الجودة. من خلال دمج هذه المتجهات في شبكة استعادة الصور عبر الانتباه المتقاطع، نتمكن من توجيه النموذج لتعلم إعادة بناء صورة عالية الدقة. كما سيقوم المتحكم نفسه بإخراج خاصية تلف تتطابق مع التلف الحقيقي للمدخلات، مما يؤدي إلى تصنيف طبيعي لأنواع مختلفة من التلف. بالإضافة إلى ذلك، قمنا ببناء مجموعة بيانات تحتوي على أنواع مختلطة من التلف مع عناوين اصطناعية لتدريب DA-CLIP. يعزز نهجنا الأداء المتقدم في مجال الاستعادة الخاصة بالتلف (degradation-specific) والاستعادة الموحدة (unified) للصور، مما يشير إلى اتجاه واعد لتحفيز استعادة الصور باستخدام نماذج الرؤية واللغة المسبقة التدريب على نطاق واسع. يمكن الوصول إلى شفرتنا المصدر من الرابط: https://github.com/Algolzw/daclip-uir.

التحكم في نماذج الرؤية واللغة لاستعادة الصور متعددة المهام | أحدث الأوراق البحثية | HyperAI