Focal Network für die Bildrekonstruktion

Die Bildrekonstruktion zielt darauf ab, ein scharfes Bild aus dessen verschlechterter Version wiederherzustellen und spielt in vielen Bereichen eine wichtige Rolle. In jüngster Zeit haben Transformer-Modelle vielversprechende Leistungen bei verschiedenen Aufgaben der Bildrekonstruktion erzielt. Allerdings bleibt ihre quadratische Komplexität ein ungelöstes Problem für praktische Anwendungen. Ziel dieser Studie ist die Entwicklung eines effizienten und wirksamen Rahmens für die Bildrekonstruktion. Ausgehend von der Beobachtung, dass verschiedene Regionen in einem beschädigten Bild unterschiedlich stark beeinträchtigt sind, schlagen wir vor, sich stärker auf die wichtigen Bereiche für die Rekonstruktion zu konzentrieren. Dazu führen wir einen dualen Domänen-Auswahlmechanismus ein, der entscheidende Informationen für die Rekonstruktion – wie Randsignale und schwierige Regionen – hervorhebt. Zusätzlich zerlegen wir hochauflösende Merkmale, um mehrskalige Empfindlichkeitsfelder in das Netzwerk einzufügen, was sowohl die Effizienz als auch die Leistung verbessert. Schließlich wird das vorgeschlagene Netzwerk, FocalNet genannt, durch die Integration dieser Entwürfe in eine U-förmige Grundstruktur aufgebaut. Umfangreiche Experimente zeigen, dass unser Modell auf zehn Datensätzen für drei Aufgaben – einschließlich Einzelbild-Defokus-Entschärfung, Bildentnebelung und Bildentschneidung – die derzeit beste Leistung erzielt. Der Quellcode ist unter https://github.com/c-yn/FocalNet verfügbar.