HyperAIHyperAI
vor 17 Tagen

Lernen eines räumlich-zeitlichen Frequenz-Transformers für komprimierte Video-Super-Resolution

Zhongwei Qiu, Huan Yang, Jianlong Fu, Dongmei Fu
Lernen eines räumlich-zeitlichen Frequenz-Transformers für komprimierte Video-Super-Resolution
Abstract

Komprimierte Video-Super-Resolution (VSR) zielt darauf ab, hochauflösende Frames aus komprimierten, niedrigauflösenden Entsprechungen wiederherzustellen. Die meisten aktuellen VSR-Ansätze verbessern einen Eingabeframe, indem sie relevante Texturen aus benachbarten Video-Frames entlehnen. Obwohl bereits Fortschritte erzielt wurden, bestehen erhebliche Herausforderungen bei der effektiven Extraktion und Übertragung hochwertiger Texturen aus komprimierten Videos, bei denen die meisten Frames typischerweise stark verfälscht sind. In diesem Artikel stellen wir einen neuartigen Frequency-Transformer für komprimierte Video-Super-Resolution (FTVSR) vor, der Selbst-Attention über einen gemeinsamen räumlich-zeitlich-frequenzbasierten Raum durchführt. Zunächst unterteilen wir einen Video-Frames in Patchs und transformieren jedes Patch mittels DCT in Spektralkarten, wobei jeder Kanal eine Frequenzband repräsentiert. Diese Architektur ermöglicht eine fein granulierte Selbst-Attention auf jedem Frequenzband, wodurch echte visuelle Texturen von Artefakten unterschieden und anschließend zur Wiederherstellung des Video-Frames genutzt werden können. Zweitens untersuchen wir verschiedene Selbst-Attention-Schemata und stellen fest, dass eine geteilte Aufmerksamkeit, die eine gemeinsame räumlich-frequenzbasierte Aufmerksamkeit vor der zeitlichen Aufmerksamkeit auf jedem Frequenzband anwendet, die höchste Video-Verbesserungsqualität erzielt. Experimentelle Ergebnisse auf zwei etablierten Benchmark-Datensätzen für Video-Super-Resolution zeigen, dass FTVSR sowohl bei unkomprimierten als auch bei komprimierten Videos die derzeit besten Ansätze klar übertreffen. Der Quellcode ist unter https://github.com/researchmm/FTVSR verfügbar.

Lernen eines räumlich-zeitlichen Frequenz-Transformers für komprimierte Video-Super-Resolution | Neueste Forschungsarbeiten | HyperAI