HyperAIHyperAI
vor 2 Monaten

MAXIM: Mehrachs-MLP für Bildverarbeitung

Zhengzhong Tu; Hossein Talebi; Han Zhang; Feng Yang; Peyman Milanfar; Alan Bovik; Yinxiao Li
MAXIM: Mehrachs-MLP für Bildverarbeitung
Abstract

Kürzliche Fortschritte bei Transformer- und Multi-Layer-Perceptron (MLP)-Modellen bieten neue Netzwerkarchitekturdesigns für Computer Vision-Aufgaben. Obwohl diese Modelle in vielen visuellen Aufgaben wie der Bilderkennung als effektiv erwiesen haben, bestehen noch Herausforderungen bei ihrer Anpassung an die Low-Level-Vision. Die Unflexibilität zur Unterstützung von hochaufgelösten Bildern und die Beschränkungen des lokalen Aufmerksamkeitsmechanismus sind möglicherweise die Hauptengpässe. In dieser Arbeit stellen wir eine auf einem mehrachsigen MLP basierende Architektur vor, die als effizienter und flexibler allgemeiner Vision-Backbone für Bildverarbeitungsaufgaben dienen kann. Diese Architektur, genannt MAXIM, verwendet eine hierarchische Struktur im UNet-Format und unterstützt durch räumlich gesteuerte MLPs ermöglichte Wechselwirkungen über große Entfernungen. Insbesondere enthält MAXIM zwei MLP-basierte Bausteine: ein mehrachsiges gesteuertes MLP, das eine effiziente und skalierbare räumliche Mischung von lokalen und globalen visuellen Hinweisen ermöglicht, und ein Cross-Gating-Block, eine Alternative zu Cross-Attention, der für die bedingte Verarbeitung von Kreuzmerkmalen sorgt. Beide Module basieren ausschließlich auf MLPs, profitieren jedoch auch davon, sowohl global als auch vollständig faltungsbezogen zu sein – Eigenschaften, die für die Bildverarbeitung wünschenswert sind. Unsere umfangreichen experimentellen Ergebnisse zeigen, dass das vorgeschlagene MAXIM-Modell den Stand der Technik auf mehr als zehn Benchmarks in verschiedenen Bildverarbeitungsaufgaben erreicht oder übertreffen kann, darunter Rauschreduzierung (denoising), Entverschwommenheit (deblurring), Regenentfernung (deraining), Dunstentfernung (dehazing) und Verbesserung (enhancement), während es weniger oder vergleichbar wenige Parameter und FLOPs benötigt als wettbewerbsfähige Modelle. Der Quellcode und die trainierten Modelle werden unter \url{https://github.com/google-research/maxim} verfügbar sein.

MAXIM: Mehrachs-MLP für Bildverarbeitung | Neueste Forschungsarbeiten | HyperAI