HyperAIHyperAI
vor 4 Monaten

Super SloMo: Hochwertige Schätzung von mehreren Zwischenbildern für die Videointerpolation

Huaizu Jiang; Deqing Sun; Varun Jampani; Ming-Hsuan Yang; Erik Learned-Miller; Jan Kautz
Super SloMo: Hochwertige Schätzung von mehreren Zwischenbildern für die Videointerpolation
Abstract

Bei zwei aufeinanderfolgenden Bildern zielt die Video-Interpolation darauf ab, Zwischenbilder zu generieren, um räumlich und zeitlich kohärente Videosequenzen zu bilden. Während die meisten bestehenden Methoden sich auf die Interpolation einzelner Bilder konzentrieren, schlagen wir ein End-to-End-Faltungss neuronales Netzwerk für die variablen Mehrfach-Bild-Video-Interpolation vor, bei der Bewegungsinterpretation und Okklusionsbegründung gemeinsam modelliert werden. Wir beginnen mit der Berechnung des bidirektionalen Optischen Flusses zwischen den Eingangsbildern unter Verwendung einer U-Net-Architektur. Diese Flüsse werden dann in jedem Zeitschritt linear kombiniert, um die Zwischenflüsse des bidirektionalen Optischen Flusses zu approximieren. Diese approximierten Flüsse funktionieren jedoch nur gut in lokal glatten Bereichen und erzeugen Artefakte an Bewegungsgrenzen. Um diesen Nachteil zu beheben, verwenden wir ein weiteres U-Net, um den approximierten Fluss zu verfeinern und auch weiche Sichtbarkeitskarten vorherzusagen. Schließlich werden die beiden Eingangsbilder verzerrt (warped) und linear fusioniert, um jedes Zwischenbild zu bilden. Durch Anwendung der Sichtbarkeitskarten auf die verzerrten Bilder vor der Fusion schließen wir den Beitrag von okkluvierten Pixeln zum interpolierten Zwischenbild aus, um Artefakte zu vermeiden. Da keiner unserer gelernten Netzwerkp arameter zeitabhängig ist, kann unser Ansatz so viele Zwischenbilder wie nötig erzeugen. Wir verwenden 1.132 Videoclips mit 240 fps, die 300.000 einzelne Videobilder enthalten, um unser Netzwerk zu trainieren. Experimentelle Ergebnisse auf mehreren Datensätzen, bei denen verschiedene Anzahlen von interpolierten Bildern vorhergesagt werden, zeigen, dass unser Ansatz konsistent besser als existierende Methoden performt.请注意,这里有一些术语的翻译:- Video interpolation: Video-Interpolation- Bi-directional optical flow: bidirektionale optischer Fluss- U-Net architecture: U-Net-Architektur- Motion boundaries: Bewegungsgrenzen- Visibility maps: Sichtbarkeitskarten- Warped images: verzerrte Bilder (在计算机视觉中,"warp"通常指的是图像变形)- Occluded pixels: okkluvierte Pixeln (这里的"okkluvierten"是根据德语语法对"occluded"进行变形的结果)希望这能帮助到您!如果有任何疑问,请随时告诉我。