HyperAIHyperAI
vor 17 Tagen

Dual Aggregation Transformer für die Bild-Super-Resolution

Zheng Chen, Yulun Zhang, Jinjin Gu, Linghe Kong, Xiaokang Yang, Fisher Yu
Dual Aggregation Transformer für die Bild-Super-Resolution
Abstract

Transformer hat in letzter Zeit erhebliche Beliebtheit in Aufgaben des Low-Level Vision erlangt, darunter die Bild-Super-Resolution (SR). Diese Netzwerke nutzen Selbst-Attention entlang verschiedener Dimensionen, sowohl räumlich als auch kanalbasiert, und erreichen beeindruckende Leistungsergebnisse. Dies motiviert uns, die beiden Dimensionen im Transformer zu kombinieren, um eine stärkere Repräsentationsfähigkeit zu erzielen. Ausgehend von diesem Ansatz stellen wir ein neuartiges Transformer-Modell, den Dual Aggregation Transformer (DAT), für die Bild-Super-Resolution vor. Unser DAT aggregiert Merkmale sowohl entlang der räumlichen als auch der kanalbasierten Dimension in einer dualen Weise – sowohl zwischen als auch innerhalb der Blöcke. Konkret wenden wir in aufeinanderfolgenden Transformer-Blöcken abwechselnd räumliche und kanalbasierte Selbst-Attention an. Diese abwechselnde Strategie ermöglicht es dem DAT, den globalen Kontext zu erfassen und eine Merkmalsaggregation zwischen den Blöcken zu realisieren. Darüber hinaus schlagen wir das adaptive Interaktionsmodul (AIM) und das spatial-gate Feed-Forward-Netzwerk (SGFN) vor, um eine Merkmalsaggregation innerhalb der Blöcke zu erreichen. Das AIM ergänzt die beiden Selbst-Attention-Mechanismen aus den jeweiligen Dimensionen. Gleichzeitig integriert das SGFN zusätzliche nichtlineare räumliche Informationen in das Feed-Forward-Netzwerk. Umfangreiche Experimente zeigen, dass unser DAT gegenwärtige Methoden übertrifft. Der Quellcode und die Modelle sind unter https://github.com/zhengchen1999/DAT verfügbar.