HyperAIHyperAI
vor 11 Tagen

Nachbarschaftsrepräsentativer Sampling für eine effiziente end-to-end Bewertung der Videqualität

Haoning Wu, Chaofeng Chen, Liang Liao, Jingwen Hou, Wenxiu Sun, Qiong Yan, Jinwei Gu, Weisi Lin
Nachbarschaftsrepräsentativer Sampling für eine effiziente end-to-end Bewertung der Videqualität
Abstract

Die erhöhte Auflösung realer Videos stellt eine Dilemma zwischen Effizienz und Genauigkeit für tiefe Video Quality Assessment (VQA)-Methoden dar. Einerseits führt die Beibehaltung der ursprünglichen Auflösung zu unakzeptabel hohen Rechenkosten. Andererseits verändern herkömmliche Praktiken wie Skalierung und Ausschneiden die Qualität der Originalvideos aufgrund des Verlusts von Details und Inhalten, was die Qualitätsbewertung negativ beeinflusst. Aufgrund der Erkenntnisse aus der Untersuchung der räumlich-zeitlichen Redundanz im menschlichen visuellen System und der Theorie der visuellen Kodierung beobachten wir, dass die Qualitätsinformationen in der Nachbarschaft eines Pixels typischerweise ähnlich sind. Dies motiviert uns, ein effektives, qualitäts-sensitives Verfahren zur Repräsentation von Nachbarschaften für die VQA zu untersuchen. In dieser Arbeit schlagen wir einen einheitlichen Ansatz vor: die räumlich-zeitliche Gitter-Minikubus-Abtastung (St-GMS), um eine neue Art von Stichproben, die sogenannten Fragmente, zu erzeugen. Vollauflösende Videos werden zunächst in Minikuben unter Verwendung vorgegebener räumlich-zeitlicher Gitter aufgeteilt. Anschließend werden zeitlich ausgerichtete Qualitätsrepräsentanten abgetastet, um Fragmente zu bilden, die als Eingaben für die VQA dienen. Zusätzlich entwerfen wir das Fragment Attention Network (FANet), eine speziell für Fragmente optimierte Netzarchitektur. Mit Hilfe von Fragmenten und FANet erreichen die vorgeschlagenen effizienten End-to-End-Methoden FAST-VQA und FasterVQA erheblich bessere Ergebnisse als bestehende Ansätze auf allen gängigen VQA-Benchmarks, wobei lediglich 1/1612 der FLOPs des aktuellen Standes der Technik benötigt werden. Quellcode, Modelle und Demonstrationen sind unter https://github.com/timothyhtimothy/FAST-VQA-and-FasterVQA verfügbar.

Nachbarschaftsrepräsentativer Sampling für eine effiziente end-to-end Bewertung der Videqualität | Neueste Forschungsarbeiten | HyperAI