HyperAIHyperAI
vor 11 Tagen

FAST-VQA: Effiziente end-to-end Videoqualitätsbewertung mit Fragment-Sampling

Haoning Wu, Chaofeng Chen, Jingwen Hou, Liang Liao, Annan Wang, Wenxiu Sun, Qiong Yan, Weisi Lin
FAST-VQA: Effiziente end-to-end Videoqualitätsbewertung mit Fragment-Sampling
Abstract

Aktuelle tiefgreifende Methoden zur Videoqualitätsbewertung (VQA) weisen bei der Bewertung von High-Resolution-Videos typischerweise hohe Rechenkosten auf, was ihre Fähigkeit einschränkt, durch end-to-end-Training verbesserte, qualitätsrelevante Darstellungen zu lernen. Bisherige Ansätze versuchen, die Rechenkosten durch naive Sampling-Strategien zu reduzieren, beispielsweise durch Skalierung oder Ausschneiden von Bildbereichen. Diese Vorgehensweisen verfälschen jedoch offensichtlich qualitätsrelevante Informationen in Videos und sind daher nicht optimal, um effektive Darstellungen für die VQA zu erlernen. Daher besteht ein dringender Bedarf, ein neues Sampling-Schema zu entwerfen, das die Qualität der Eingabedaten bewahrt. In diesem Artikel stellen wir Grid Mini-patch Sampling (GMS) vor, das die Berücksichtigung lokaler Qualitätsmerkmale ermöglicht, indem es Patche in ihrer ursprünglichen Auflösung abtastet, und gleichzeitig globale Qualitätsaspekte durch kontextuelle Beziehungen zwischen Mini-Patchen erfasst, die in gleichmäßigen Gittern abgetastet werden. Diese Mini-Patche werden zeitlich synchronisiert und zusammengesetzt, wodurch sogenannte Fragmente entstehen. Wir entwickeln weiterhin das Fragment Attention Network (FANet), speziell darauf ausgelegt, Fragmente als Eingabedaten zu verarbeiten. Die Kombination aus Fragmenten und FANet bildet das vorgeschlagene FrAgment Sample Transformer for VQA (FAST-VQA), das eine effiziente end-to-end-basierte tiefe VQA ermöglicht und wirksame, qualitätsrelevante Video-Darstellungen lernt. FAST-VQA erreicht eine Verbesserung der state-of-the-art-Genauigkeit um etwa 10 % bei einer Reduktion der FLOPs um 99,5 % bei 1080P-High-Resolution-Videos. Die neu erlernten qualitätsrelevanten Video-Darstellungen können zudem auf kleinere VQA-Datensätze übertragen werden, wodurch die Leistung in diesen Szenarien erheblich gesteigert wird. Umfangreiche Experimente zeigen, dass FAST-VQA eine hervorragende Leistung bei Eingaben unterschiedlicher Auflösungen erzielt und gleichzeitig hohe Effizienz bewahrt. Der Quellcode wird unter https://github.com/timothyhtimothy/FAST-VQA veröffentlicht.

FAST-VQA: Effiziente end-to-end Videoqualitätsbewertung mit Fragment-Sampling | Neueste Forschungsarbeiten | HyperAI