منذ 6 أشهر

الملخص

على الرغم من الأداء المتميز الذي حققته الشبكة المُحَوِّلة (Transformer) في العديد من المهام البصرية عالية المستوى، يبقى من الصعب استغلال الإمكانات الكاملة للشبكة المُحَوِّلة في مهام استعادة الصور. تكمن المشكلة الجوهرية في العمق المحدود لتطبيق الشبكة المُحَوِّلة ضمن الإطار النموذجي المكون من معالج ترميز (Encoder) وفك ترميز (Decoder) لاستعادة الصور، وذلك نتيجة الحمل الثقيل على عملية الانتباه الذاتي (self-attention) وسوء كفاءة الاتصال بين الطبقات المختلفة من حيث الأحجام (المقياس). في هذا البحث، نقدّم شبكة قائمة على الشبكة المُحَوِّلة عميقة وفعّالة لاستعادة الصور، تُسمى U2-Former، والتي تتيح استخدام الشبكة المُحَوِّلة كعملية أساسية لتنفيذ استعادة الصور في فضاء ترميز وفك ترميز عميق. وبشكل خاص، تستخدم U2-Former هيكلًا مُتداخلًا على شكل حرف U لتمكين التفاعلات بين الطبقات المختلفة التي تعتمد على خرائط ميزات بمقاييس متفاوتة. علاوةً على ذلك، قمنا بتحسين الكفاءة الحسابية للوحدة الأساسية للشبكة المُحَوِّلة من خلال إدخال آلية تصفية الميزات لضغط تمثيل الرموز (tokens). وبالإضافة إلى الطرق التقليدية للإشراف في استعادة الصور، تقوم U2-Former أيضًا بتعلم تبايني (contrastive learning) من جوانب متعددة لفصل مكون الضوضاء عن الصورة الخلفية بشكل أكثر فعالية. أظهرت التجارب الواسعة على مهام استعادة الصور المختلفة، بما في ذلك إزالة الانعكاسات، وإزالة آثار المطر، وإزالة الضباب، فعالية الشبكة المقترحة U2-Former.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار