HyperAIHyperAI

Command Palette

Search for a command to run...

التحكم في نماذج الرؤية واللغة لاستعادة الصور متعددة المهام

Ziwei Luo Fredrik K. Gustafsson Zheng Zhao Jens Sjölund Thomas B. Schön

الملخص

نماذج الرؤية واللغة مثل CLIP قد أظهرت تأثيرًا كبيرًا في مهام مختلفة لتنبؤات الصفر أو بدون تسميات. ومع ذلك، عندما يتعلق الأمر بالرؤية من المستوى المنخفض مثل استعادة الصور، تتدهور أداؤها بشكل كبير بسبب المدخلات التالفة. في هذا البحث، نقدم نموذج رؤية ولغة يدرك التلف (DA-CLIP) لنقل النماذج المسبقة التدريب من الرؤية واللغة إلى مهام الرؤية من المستوى المنخفض كإطار متعدد المهام لاستعادة الصور. وبشكل أكثر تحديدًا، يقوم DA-CLIP بتدريب متحكم إضافي يتكيف مع مُشفر الصور الثابت في CLIP للتنبؤ بمتجهات خصائص عالية الجودة. من خلال دمج هذه المتجهات في شبكة استعادة الصور عبر الانتباه المتقاطع، نتمكن من توجيه النموذج لتعلم إعادة بناء صورة عالية الدقة. كما سيقوم المتحكم نفسه بإخراج خاصية تلف تتطابق مع التلف الحقيقي للمدخلات، مما يؤدي إلى تصنيف طبيعي لأنواع مختلفة من التلف. بالإضافة إلى ذلك، قمنا ببناء مجموعة بيانات تحتوي على أنواع مختلطة من التلف مع عناوين اصطناعية لتدريب DA-CLIP. يعزز نهجنا الأداء المتقدم في مجال الاستعادة الخاصة بالتلف (degradation-specific) والاستعادة الموحدة (unified) للصور، مما يشير إلى اتجاه واعد لتحفيز استعادة الصور باستخدام نماذج الرؤية واللغة المسبقة التدريب على نطاق واسع. يمكن الوصول إلى شفرتنا المصدر من الرابط: https://github.com/Algolzw/daclip-uir.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
التحكم في نماذج الرؤية واللغة لاستعادة الصور متعددة المهام | مستندات | HyperAI