HyperAIHyperAI
منذ 2 أشهر

ماكسيم: الشبكة العصبية متعددة المحاور للمعالجة الصورية

Zhengzhong Tu; Hossein Talebi; Han Zhang; Feng Yang; Peyman Milanfar; Alan Bovik; Yinxiao Li
ماكسيم: الشبكة العصبية متعددة المحاور للمعالجة الصورية
الملخص

التطورات الحديثة في نماذج Transformers والشبكات العصبية متعددة الطبقات (MLP) تقدم تصاميم معمارية جديدة للشبكات لمهام الرؤية الحاسوبية. رغم أن هذه النماذج أثبتت فعاليتها في العديد من مهام الرؤية مثل التعرف على الصور، إلا أنها لا تزال تواجه تحديات في تكييفها للرؤية من المستوى المنخفض. ربما تكون عدم المرونة في دعم الصور ذات الدقة العالية وقيود الانتباه المحلي هي العقبات الرئيسية. في هذا البحث، نقدم معمارية قائمة على الشبكات العصبية متعددة الطبقات متعددة المحاور تُسمى MAXIM، والتي يمكن أن تعمل كأساس عام ومرن للرؤية الحاسوبية لمهام معالجة الصور. يستخدم MAXIM بنية هرمية على شكل UNet ويتيح التفاعلات طويلة المدى بفضل الشبكات العصبية متعددة الطبقات المغلقة فضائيًا. بشكل خاص، يحتوي MAXIM على وحدتين أساسيتين قائمتين على الشبكات العصبية متعددة الطبقات: MLP متعدد المحاور مغلق يسمح بمزج الفضاء بكفاءة وقابلية للتوسع بين المؤشرات البصرية المحلية والعالمية، ووحدة التحكم المتقاطعة، وهي بديل للاهتمام المتقاطع، التي تتولى التحكم المتقاطع بالخصائص. تعتمد كلتا الوحدتين بشكل حصري على الشبكات العصبية متعددة الطبقات، لكنهما تستفيدان أيضًا من كونهما عالميتين و"كاملة التفاف" (fully-convolutional)، وهما خاصيتان مرغوبتان في معالجة الصور. تظهر نتائجنا التجريبية الواسعة أن النموذج المقترح MAXIM يحقق أفضل الأداء في أكثر من عشرة مقاييس عبر مجموعة متنوعة من مهام معالجة الصور، بما في ذلك إزالة الضوضاء وإزالة التشويش وإزالة الأمطار وإزالة الضباب والتحسين، بينما يتطلب عددًا أقل أو مكافئًا من المعالم والمعلميات (FLOPs) مقارنة بالنماذج التنافسية. سيتم توفير الكود المصدر والنماذج المدربة في الرابط \url{https://github.com/google-research/maxim}.

ماكسيم: الشبكة العصبية متعددة المحاور للمعالجة الصورية | أحدث الأوراق البحثية | HyperAI