منذ 8 أشهر

الملخص

لتحقيق متطلبات زيادة الطلب بشكل سريع على عمليات تحسين الدقة الصورية الكبيرة (2K-8K)، تتبع الطرق السائدة مسارين مستقلين: 1) تسريع الشبكات الحالية من خلال توجيه محتوى مُراعٍ، و2) تصميم شبكات تحسين دقة صورية أفضل من خلال تحسين مُمزج الرموز (token mixer). وعلى الرغم من بساطة هذه الطرق، فإنها تواجه عيوبًا لا يمكن تجنبها (مثل مسارات ثابتة أو معالجة غير تمييزية)، مما يحد من تحسين التوازن بين الجودة والتعقيد. ولإزالة هذه العيوب، ندمج هذه الاستراتيجيات من خلال اقتراح مُمزج مُراعٍ للمحتوى (CAMixer)، الذي يُخصّص العمليات التلافيفية (convolution) للسياقات البسيطة، ويُستخدم انتباه نافذة مُتغيرة الشكل (deformable window-attention) للسياقات النادرة أو غير الكثيفة. وبشكل محدد، يستخدم CAMixer مُحدّدًا قابلاً للتعلم لإنشاء عدة "مُقدّمات أولية" (bootstraps)، تشمل ازاحةً لانحناء النوافذ، وقناعًا لتصنيف النوافذ، وانتباهات تلافيفية لمنح العمليات التلافيفية خاصية ديناميكية، مما يُعدّل الانتباه لتضمين نسيج أكثر فائدة بشكل تلقائي، ويُحسّن قدرة التمثيل للعمليات التلافيفية. كما نُدخل بشكل إضافي خسارة تصنيف عالمية لتحسين دقة المُحدّدات. وببساطة، من خلال تجميع عدة CAMixers، نحصل على نموذج CAMixerSR الذي يحقق أداءً متفوقًا في تحسين دقة الصور الكبيرة، وتحسين دقة الصور الخفيفة (lightweight SR)، وتحسين دقة الصور الشاملة (omnidirectional-image SR).

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار