IRNeXt: Convolutional Network-Design für die Bildrekonstruktion neu gedacht
Wir stellen IRNeXt vor, eine einfache aber wirksame architektur-basierte Faltungsnetzwerk-Struktur für die Bildrekonstruktion. In jüngster Zeit haben Transformer-Modelle das Feld der Bildrekonstruktion dominiert, da sie über eine starke Fähigkeit zur Modellierung von Weitreichweiten-Pixel-Interaktionen verfügen. In diesem Artikel untersuchen wir das Potenzial von Faltungsneuralen Netzen (CNNs) und zeigen, dass unser auf CNN basierendes Modell im Vergleich zu Transformer-Modellen auf mehreren Aufgaben der Bildrekonstruktion vergleichbare oder sogar bessere Leistung mit geringem Rechenaufwand erzielt. Durch eine erneute Analyse der Eigenschaften fortschrittlicher Algorithmen zur Bildrekonstruktion identifizieren wir mehrere Schlüsselfaktoren, die zur Leistungssteigerung von Rekonstruktionsmodellen beitragen. Dies motiviert uns, ein neues Netzwerk für die Bildrekonstruktion auf Basis kostengünstiger Faltungsoperatoren zu entwickeln. Umfassende Experimente zeigen, dass IRNeXt unter zahlreichen Datensätzen auf einer Vielzahl von Bildrekonstruktionsaufgaben eine state-of-the-art-Leistung erzielt, wobei die Rechenkomplexität gering bleibt. Zu diesen Aufgaben zählen Bildentnebelung, Einzelbild-unschärfen- oder Bewegungsunschärfen-Entschärfung, Bildentregen und Bildentschneien.