EDVR: Video-Restauration mit erweiterten deformierbaren Faltungsnetzen

Aufgaben der Videorestauration, einschließlich Super-Resolution und Entverwischung, erlangen zunehmend an Bedeutung in der Computer-Vision-Gemeinschaft. Im Rahmen der NTIRE19-Challenge wurde ein anspruchsvoller Benchmark namens REDS veröffentlicht. Dieser neue Benchmark stellt bestehende Methoden auf zwei Aspekten heraus: (1) wie man mehrere Frames bei großen Bewegungen ausrichten kann, und (2) wie man verschiedene Frames mit unterschiedlichen Bewegungen und Verwischungen effektiv fusionieren kann. In dieser Arbeit schlagen wir einen neuen Videorestaurationsrahmen vor, den Enhanced Deformable Networks (EDVR), um diese Herausforderungen zu bewältigen. Zunächst, um große Bewegungen zu behandeln, entwickeln wir ein Pyramiden-, Kaskaden- und deformierbares (PCD) Ausrichtungsmodul, in dem die Frameausrichtung auf Feature-Ebene unter Verwendung deformierbarer Faltungen in einer von grob zu fein gestuften Weise durchgeführt wird. Zweitens schlagen wir ein zeitlich und räumlich aufmerksamkeitsgesteuertes (TSA) Fusionierungsmodul vor, in dem sowohl zeitliche als auch räumliche Aufmerksamkeit angewendet wird, um wichtige Features für nachfolgende Restaurationsprozesse hervorzuheben. Dank dieser Module gewann unser EDVR alle vier Tracks der NTIRE19-Videorestaurations- und -verbesserungschallenge und übertraf den zweiten Platz erheblich. EDVR zeigt zudem eine überlegene Leistung im Vergleich zu den neuesten veröffentlichten Methoden bei Videosuperresolution und Entverwischung. Der Code ist unter https://github.com/xinntao/EDVR verfügbar.