Mehrsichtige selbstüberwachte Entkoppelung für allgemeine Bildrauschunterdrückung

Durch erhebliche Leistungssteigerungen ist das Paradigma des tiefen Lernens zu einem Standardwerkzeug für moderne Bild-Rauschunterdrückungssysteme geworden. Obwohl bereits vielversprechende Ergebnisse auf bekannten Rauschverteilungen erzielt wurden, leiden bestehende Ansätze häufig unter einer schlechten Generalisierung auf unbekannte Rauscharten oder allgemeine, realistische Rauschmuster. Dies ist verständlich, da die Modelle typischerweise darauf ausgelegt sind, eine Paarabbildung zu lernen (z. B. von einem verrauschten Bild auf seine saubere Version). In diesem Artikel schlagen wir stattdessen vor, die verrauschten Bilder zu entkoppeln, unter der intuitiven Annahme, dass verschiedene verfälschte Versionen desselben sauberen Bildes einen gemeinsamen latenten Raum teilen. Wir stellen einen selbstüberwachten Lernrahmen vor, der dieses Ziel erreicht, ohne die latente saubere Bildinformation zu betrachten. Durch die Verarbeitung zweier unterschiedlicher verfälschter Versionen desselben Bildes lernt der vorgeschlagene Multi-view Self-supervised Disentanglement (MeD)-Ansatz, die latenten sauberen Merkmale von den Verfälschungen zu trennen und anschließend das saubere Bild wiederherzustellen. Umfassende experimentelle Analysen sowohl auf synthetischem als auch auf realem Rauschen zeigen die Überlegenheit des vorgeschlagenen Verfahrens gegenüber vorherigen selbstüberwachten Ansätzen, insbesondere bei unbekannten, neuen Rauscharten. Auf realen Rauschdatensätzen übertrifft das vorgeschlagene Verfahren sogar seine überwachten Konkurrenten um mehr als 3 dB.