Genau und angereicherte Merkmale für die Super-Resolution von Stereo-Bildern lernen

Die Stereo-Bild-Super-Resolution (stereoSR) zielt darauf ab, die Qualität der Super-Resolution-Ergebnisse durch die Einbeziehung komplementärer Informationen aus einer alternativen Sicht zu verbessern. Obwohl aktuelle Methoden erhebliche Fortschritte gezeigt haben, operieren sie in der Regel auf Darstellungen voller Auflösung, um räumliche Details zu bewahren, und stoßen dabei auf Schwierigkeiten bei der genauen Erfassung kontextueller Informationen. Gleichzeitig nutzen sie alle Merkmalsähnlichkeiten, um Informationen zwischen den beiden Sichten zu koppeln, wobei möglicherweise die Auswirkungen irrelevanter Informationen vernachlässigt werden. Um dieses Problem zu überwinden, schlagen wir ein Netzwerk mit gemischten Skalen und selektiver Fusion (MSSFNet) vor, das präzise räumliche Details bewahrt und reichhaltige kontextuelle Informationen einbezieht. Es wählt und fusioniert zudem adaptive die genauesten Merkmale aus den beiden Sichten, um eine Förderung hochwertiger stereoSR zu gewährleisten. Insbesondere entwickeln wir einen gemischten-Skalen-Block (MSB), der kontextuell angereicherte Merkmalsdarstellungen auf mehreren räumlichen Skalen erhält, während er präzise räumliche Details beibehält. Des Weiteren entwerfen wir ein Modul für selektive Fusion mit Aufmerksamkeit (SFAM), das die genauesten Merkmale aus der anderen Sicht sucht und überträgt, um dynamisch die wichtigsten Informationen zwischen den Sichten zu behalten. Um eine angereicherte Menge an lokalen und nicht-lokalen Merkmalen zu lernen, führen wir einen schnellen Fourier-Konvolution-Block (FFCB) ein, der explizit Wissen aus dem Frequenzbereich integriert. Ausführliche Experimente zeigen, dass MSSFNet bei quantitativen und qualitativen Bewertungen erhebliche Verbesserungen gegenüber den besten bisherigen Ansätzen erreicht.