Command Palette
Search for a command to run...
CAMixerSR: يكفي أن يحصل التفاصيل على المزيد من "الانتباه"
CAMixerSR: يكفي أن يحصل التفاصيل على المزيد من "الانتباه"
Yan Wang Yi Liu Shijie Zhao Junlin Li Li Zhang
الملخص
لتحقيق متطلبات زيادة الطلب بشكل سريع على عمليات تحسين الدقة الصورية الكبيرة (2K-8K)، تتبع الطرق السائدة مسارين مستقلين: 1) تسريع الشبكات الحالية من خلال توجيه محتوى مُراعٍ، و2) تصميم شبكات تحسين دقة صورية أفضل من خلال تحسين مُمزج الرموز (token mixer). وعلى الرغم من بساطة هذه الطرق، فإنها تواجه عيوبًا لا يمكن تجنبها (مثل مسارات ثابتة أو معالجة غير تمييزية)، مما يحد من تحسين التوازن بين الجودة والتعقيد. ولإزالة هذه العيوب، ندمج هذه الاستراتيجيات من خلال اقتراح مُمزج مُراعٍ للمحتوى (CAMixer)، الذي يُخصّص العمليات التلافيفية (convolution) للسياقات البسيطة، ويُستخدم انتباه نافذة مُتغيرة الشكل (deformable window-attention) للسياقات النادرة أو غير الكثيفة. وبشكل محدد، يستخدم CAMixer مُحدّدًا قابلاً للتعلم لإنشاء عدة "مُقدّمات أولية" (bootstraps)، تشمل ازاحةً لانحناء النوافذ، وقناعًا لتصنيف النوافذ، وانتباهات تلافيفية لمنح العمليات التلافيفية خاصية ديناميكية، مما يُعدّل الانتباه لتضمين نسيج أكثر فائدة بشكل تلقائي، ويُحسّن قدرة التمثيل للعمليات التلافيفية. كما نُدخل بشكل إضافي خسارة تصنيف عالمية لتحسين دقة المُحدّدات. وببساطة، من خلال تجميع عدة CAMixers، نحصل على نموذج CAMixerSR الذي يحقق أداءً متفوقًا في تحسين دقة الصور الكبيرة، وتحسين دقة الصور الخفيفة (lightweight SR)، وتحسين دقة الصور الشاملة (omnidirectional-image SR).