vor 8 Monaten

Zusammenfassung

Kürzliche Fortschritte bei Transformer- und Multi-Layer-Perceptron (MLP)-Modellen bieten neue Netzwerkarchitekturdesigns für Computer Vision-Aufgaben. Obwohl diese Modelle in vielen visuellen Aufgaben wie der Bilderkennung als effektiv erwiesen haben, bestehen noch Herausforderungen bei ihrer Anpassung an die Low-Level-Vision. Die Unflexibilität zur Unterstützung von hochaufgelösten Bildern und die Beschränkungen des lokalen Aufmerksamkeitsmechanismus sind möglicherweise die Hauptengpässe. In dieser Arbeit stellen wir eine auf einem mehrachsigen MLP basierende Architektur vor, die als effizienter und flexibler allgemeiner Vision-Backbone für Bildverarbeitungsaufgaben dienen kann. Diese Architektur, genannt MAXIM, verwendet eine hierarchische Struktur im UNet-Format und unterstützt durch räumlich gesteuerte MLPs ermöglichte Wechselwirkungen über große Entfernungen. Insbesondere enthält MAXIM zwei MLP-basierte Bausteine: ein mehrachsiges gesteuertes MLP, das eine effiziente und skalierbare räumliche Mischung von lokalen und globalen visuellen Hinweisen ermöglicht, und ein Cross-Gating-Block, eine Alternative zu Cross-Attention, der für die bedingte Verarbeitung von Kreuzmerkmalen sorgt. Beide Module basieren ausschließlich auf MLPs, profitieren jedoch auch davon, sowohl global als auch vollständig faltungsbezogen zu sein – Eigenschaften, die für die Bildverarbeitung wünschenswert sind. Unsere umfangreichen experimentellen Ergebnisse zeigen, dass das vorgeschlagene MAXIM-Modell den Stand der Technik auf mehr als zehn Benchmarks in verschiedenen Bildverarbeitungsaufgaben erreicht oder übertreffen kann, darunter Rauschreduzierung (denoising), Entverschwommenheit (deblurring), Regenentfernung (deraining), Dunstentfernung (dehazing) und Verbesserung (enhancement), während es weniger oder vergleichbar wenige Parameter und FLOPs benötigt als wettbewerbsfähige Modelle. Der Quellcode und die trainierten Modelle werden unter \url{https://github.com/google-research/maxim} verfügbar sein.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Transformer

Computer Vision

Faltungsneuronales Netzwerk

Ansatz/Rahmenwerk

Computervision

Aufgabe

Zhengzhong Tu Hossein Talebi Han Zhang Feng Yang Peyman Milanfar Alan Bovik Yinxiao Li

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Transformer

Computer Vision

Faltungsneuronales Netzwerk

Ansatz/Rahmenwerk

Computervision

Aufgabe

Zhengzhong Tu Hossein Talebi Han Zhang Feng Yang Peyman Milanfar Alan Bovik Yinxiao Li

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

MAXIM: Mehrachs-MLP für Bildverarbeitung

Zhengzhong Tu Hossein Talebi Han Zhang Feng Yang Peyman Milanfar Alan Bovik Yinxiao Li

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

MAXIM: Mehrachs-MLP für Bildverarbeitung

Zhengzhong Tu Hossein Talebi Han Zhang Feng Yang Peyman Milanfar Alan Bovik Yinxiao Li

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

MAXIM: Mehrachs-MLP für Bildverarbeitung

Zhengzhong Tu Hossein Talebi Han Zhang Feng Yang Peyman Milanfar Alan Bovik Yinxiao Li

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters