HyperAIHyperAI
vor 7 Tagen

U2-Former: Ein geschachteltes U-förmiges Transformer-Modell für die Bildrekonstruktion

Haobo Ji, Xin Feng, Wenjie Pei, Jinxing Li, Guangming Lu
U2-Former: Ein geschachteltes U-förmiges Transformer-Modell für die Bildrekonstruktion
Abstract

Obwohl der Transformer in verschiedenen hochleveligen Aufgaben der Bildverarbeitung beachtliche Leistungen erzielt hat, bleibt die vollständige Ausnutzung seines Potenzials bei der Bildrekonstruktion weiterhin herausfordernd. Der Kern dieser Schwierigkeit liegt in der begrenzten Tiefe, mit der der Transformer im typischen Encoder-Decoder-Framework für die Bildrekonstruktion eingesetzt werden kann, was auf die hohe Rechenlast der Selbst-Attention-Operationen und die ineffizienten Kommunikationsmechanismen zwischen Schichten unterschiedlicher Skalen zurückzuführen ist. In diesem Artikel präsentieren wir ein tiefes und effektives, auf Transformer basierendes Netzwerk für die Bildrekonstruktion, das als U2-Former bezeichnet wird und in der Lage ist, den Transformer als zentrale Operation in einem tiefen Kodierungs- und Dekodierungsraum zur Bildrekonstruktion einzusetzen. Insbesondere nutzt es eine geschachtelte U-förmige Architektur, um die Wechselwirkungen zwischen Schichten mit unterschiedlichen Skalen von Merkmalskarten zu fördern. Darüber hinaus optimieren wir die rechnerische Effizienz des grundlegenden Transformer-Blocks durch Einführung einer Merkmalsfilter-Mechanismus zur Kompression der Token-Repräsentation. Neben den typischen Supervisionsansätzen für die Bildrekonstruktion führt unser U2-Former zudem kontrastives Lernen auf mehreren Ebenen durch, um die Entkopplung des Rauschanteils vom Hintergrundbild weiter zu verbessern. Umfassende Experimente an verschiedenen Aufgaben der Bildrekonstruktion – einschließlich Reflexionsentfernung, Regenstreifenentfernung und Entnebelung – belegen die Wirksamkeit des vorgeschlagenen U2-Former.

U2-Former: Ein geschachteltes U-förmiges Transformer-Modell für die Bildrekonstruktion | Neueste Forschungsarbeiten | HyperAI