HyperAIHyperAI
vor 18 Tagen

Lernen eines räumlich-zeitlichen Frequenz-Transformers für die Super-Resolution von niedrigqualitativen Videos

Zhongwei Qiu, Huan Yang, Jianlong Fu, Daochang Liu, Chang Xu, Dongmei Fu
Lernen eines räumlich-zeitlichen Frequenz-Transformers für die Super-Resolution von niedrigqualitativen Videos
Abstract

Video-Super-Resolution (VSR) zielt darauf ab, hochauflösende (HR) Videos aus niedrigauflösenden (LR) Videos wiederherzustellen. Bestehende VSR-Techniken erzielen in der Regel die Rekonstruktion hochauflösender Frames, indem sie relevante Texturen aus benachbarten Frames mit bekannter Degradationsprozessierung extrahieren. Trotz erheblicher Fortschritte bestehen weiterhin große Herausforderungen bei der effektiven Extraktion und Übertragung hochwertiger Texturen aus stark degradeierten, niedrigqualitativen Sequenzen, wie beispielsweise Verschmierungen, additiven Rauschen und Kompressionsartefakten. In dieser Arbeit wird ein neuartiger Frequency-Transformer (FTVSR) vorgestellt, um mit niedrigqualitativen Videos umzugehen, indem er Selbst-Attention in einem kombinierten zeit- und frequenzraumlichen Raum durchführt. Zunächst werden Videoframes in Patchs aufgeteilt, und jeder Patch wird in Spektralkarten transformiert, wobei jeder Kanal eine Frequenzband repräsentiert. Dies ermöglicht eine fein granulare Selbst-Attention für jedes Frequenzband, sodass echte visuelle Texturen von Artefakten unterschieden werden können. Zweitens wird ein neuartiges Dual-Frequency-Attention (DFA)-Mechanismus vorgeschlagen, um globale und lokale Frequenzbeziehungen zu erfassen, wodurch unterschiedlich komplexe Degradationsprozesse in realen Szenarien effektiv bewältigt werden können. Drittens werden verschiedene Selbst-Attention-Schemata für die Videoverarbeitung im Frequenzraum untersucht, wobei sich ergibt, dass eine „dividierte Attention“, die eine gemeinsame Raum-Frequenz-Attention vor der Anwendung einer zeitlichen-Frequenz-Attention durchführt, die beste Qualität bei der Video-Verbesserung liefert. Umfangreiche Experimente an drei etablierten VSR-Datensätzen zeigen, dass FTVSR state-of-the-art-Methoden bei verschiedenen niedrigqualitativen Videos mit klarer visueller Überlegenheit übertrifft. Der Quellcode und vortrainierte Modelle sind unter https://github.com/researchmm/FTVSR verfügbar.

Lernen eines räumlich-zeitlichen Frequenz-Transformers für die Super-Resolution von niedrigqualitativen Videos | Neueste Forschungsarbeiten | HyperAI