Mehrstufige Rohvideorauschenreduzierung mit adversiver Verlustfunktion und Gradientenmaske

In diesem Artikel stellen wir einen lernbasierten Ansatz zur Rauschunterdrückung von Rohvideos vor, die unter schlechten Beleuchtungsbedingungen aufgenommen wurden. Dazu schlagen wir vor, zunächst die benachbarten Frames explizit auf den aktuellen Frame mithilfe eines Faltungsneuronalen Netzes (CNN) auszurichten. Anschließend fusionieren wir die registrierten Frames mittels eines weiteren CNN, um den endgültigen geräuschreduzierten Frame zu erzeugen. Um eine direkte Ausrichtung zeitlich weit auseinanderliegender Frames zu vermeiden, führen wir die Prozesse der Ausrichtung und Fusion in mehreren Stufen durch. Konkret führen wir in jeder Stufe die Rauschunterdrückung auf drei aufeinanderfolgende Eingabeframes durch, um Zwischenresultate mit reduziertem Rauschen zu generieren, die dann als Eingabe für die nächste Stufe dienen. Durch die mehrstufige Durchführung des Verfahrens können wir die Informationen benachbarter Frames effektiv nutzen, ohne direkt zeitlich entfernte Frames auszurichten. Wir trainieren unser mehrstufiges System mit einer adversariellen Verlustfunktion, wobei der Diskriminator bedingt auf einer weichen Gradientenmaske basiert, um die Einführung von hochfrequenten Artefakten in glatten Bereichen zu vermeiden. Wir zeigen, dass unser System zeitlich kohärente Videos mit realistischen Details erzeugen kann. Darüber hinaus belegen umfangreiche Experimente, dass unser Ansatz sowohl quantitativ als auch qualitativ state-of-the-art Methoden für Bild- und Videoräuschunterdrückung übertrifft.