HyperAIHyperAI
il y a 11 jours

FAST-VQA : Évaluation efficace de la qualité vidéo en boucle complète basée sur l’échantillonnage de fragments

Haoning Wu, Chaofeng Chen, Jingwen Hou, Liang Liao, Annan Wang, Wenxiu Sun, Qiong Yan, Weisi Lin
FAST-VQA : Évaluation efficace de la qualité vidéo en boucle complète basée sur l’échantillonnage de fragments
Résumé

Les méthodes actuelles d’évaluation profonde de la qualité vidéo (VQA) sont généralement très coûteuses en termes de calcul lorsqu’elles évaluent des vidéos en haute résolution. Ce coût élevé entrave leur capacité à apprendre de meilleures représentations liées à la qualité vidéo grâce à un entraînement end-to-end. Les approches existantes considèrent généralement des échantillonnages naïfs afin de réduire la charge computationnelle, tels que le redimensionnement ou le découpage (cropping). Toutefois, ces méthodes corrompent clairement des informations pertinentes pour la qualité dans les vidéos, ce qui les rend sous-optimales pour l’apprentissage de représentations efficaces en VQA. Par conséquent, il existe un besoin urgent de concevoir un nouveau schéma d’échantillonnage préservant la qualité pour la VQA.Dans cet article, nous proposons Grid Mini-patch Sampling (GMS), une méthode permettant de tenir compte de la qualité locale en échantillonnant des patches à leur résolution d’origine, tout en capturant la qualité globale grâce aux relations contextuelles entre des mini-patches échantillonnés selon une grille uniforme. Ces mini-patches sont assemblés et alignés temporellement, formant ce que nous appelons des fragments. Nous concevons également un réseau d’attention sur les fragments, nommé Fragment Attention Network (FANet), spécifiquement conçu pour traiter ces fragments comme entrées. En combinant fragments et FANet, le modèle proposé, appelé FrAgment Sample Transformer for VQA (FAST-VQA), permet une évaluation profonde de la qualité vidéo efficace et end-to-end, tout en apprenant des représentations vidéo pertinentes pour la qualité de manière performante. FAST-VQA améliore la précision de l’état de l’art d’environ 10 % tout en réduisant de 99,5 % les FLOPs sur des vidéos haute résolution de 1080P. Les représentations vidéo liées à la qualité nouvellement apprises peuvent également être transférées vers des jeux de données VQA plus petits, améliorant ainsi les performances dans ces scénarios. Des expériences étendues montrent que FAST-VQA obtient de bonnes performances sur des entrées de diverses résolutions tout en préservant une grande efficacité. Nous mettons notre code à disposition à l’adresse suivante : https://github.com/timothyhtimothy/FAST-VQA.

FAST-VQA : Évaluation efficace de la qualité vidéo en boucle complète basée sur l’échantillonnage de fragments | Articles de recherche récents | HyperAI