HyperAIHyperAI
il y a 2 mois

MAXIM : Multi-Axe MLP pour le Traitement d'Images

Zhengzhong Tu; Hossein Talebi; Han Zhang; Feng Yang; Peyman Milanfar; Alan Bovik; Yinxiao Li
MAXIM : Multi-Axe MLP pour le Traitement d'Images
Résumé

Les progrès récents sur les modèles Transformers et les perceptrons multicouches (MLP) offrent de nouvelles architectures de réseau pour les tâches de vision par ordinateur. Bien que ces modèles aient fait leurs preuves dans de nombreuses tâches de vision, notamment la reconnaissance d'images, des défis subsistent pour leur adaptation à la vision de bas niveau. L'inflexibilité à prendre en charge des images à haute résolution et les limitations de l'attention locale sont probablement les principaux goulets d'étranglement. Dans ce travail, nous présentons une architecture basée sur un MLP multi-axe appelée MAXIM, qui peut servir d'ossature générale efficace et flexible pour les tâches de traitement d'images. MAXIM utilise une structure hiérarchique en forme de UNet et prend en charge les interactions à longue portée grâce aux MLPs spatialement gérés. Plus précisément, MAXIM contient deux blocs de construction basés sur des MLP : un MLP multi-axe géré qui permet un mélange spatial efficace et évolutif des indices visuels locaux et globaux, et un bloc de croisement géré, une alternative à l'attention croisée, qui prend en compte le conditionnement croisé des caractéristiques. Ces deux modules sont exclusivement basés sur des MLPs, mais bénéficient également d'être à la fois globaux et « pleinement convolutifs », deux propriétés souhaitables pour le traitement d'images. Nos résultats expérimentaux étendus montrent que le modèle MAXIM proposé atteint des performances de pointe sur plus de dix benchmarks couvrant une gamme de tâches de traitement d'images, y compris le débruitage, le défloutage, la suppression des pluies, la désaturation du brouillard et l'amélioration, tout en nécessitant moins ou un nombre comparable de paramètres et de FLOPs par rapport aux modèles concurrents. Le code source et les modèles entraînés seront disponibles à l'adresse \url{https://github.com/google-research/maxim}.

MAXIM : Multi-Axe MLP pour le Traitement d'Images | Articles de recherche récents | HyperAI