HyperAIHyperAI
il y a 11 jours

DisCoVQA : Transformateurs de distortion temporelle-contenu pour l’évaluation de la qualité vidéo

Haoning Wu, Chaofeng Chen, Liang Liao, Jingwen Hou, Wenxiu Sun, Qiong Yan, Weisi Lin
DisCoVQA : Transformateurs de distortion temporelle-contenu pour l’évaluation de la qualité vidéo
Résumé

Les relations temporelles entre les trames et leur influence sur l’évaluation de la qualité vidéo (VQA) restent encore peu explorées dans les travaux existants. Ces relations engendrent deux types importants d’effets sur la qualité vidéo. Premièrement, certaines variations temporelles (comme les tremblements, les clignotements ou les transitions soudaines entre scènes) provoquent des distorsions temporelles entraînant une dégradation supplémentaire de la qualité, tandis que d’autres variations (par exemple celles liées à des événements significatifs) n’ont pas cet effet. Deuxièmement, le système visuel humain accorde souvent une attention différente aux trames selon leur contenu, ce qui implique une importance variable de chacune pour la qualité globale de la vidéo. Inspirés par la puissante capacité des transformateurs à modéliser les séries temporelles, nous proposons une nouvelle méthode efficace de VQA basée sur les transformateurs afin de traiter ces deux problèmes. Pour mieux distinguer les variations temporelles et ainsi capturer les distorsions temporelles, nous concevons un module d’extraction de distorsion spatio-temporelle (STDE) basé sur les transformateurs. Pour aborder l’attention temporelle portée à la qualité, nous proposons un transformateur de contenu temporel (TCT) de type encodeur-décodeur. Nous introduisons également un échantillonnage temporel des caractéristiques afin de réduire la longueur d’entrée du TCT, améliorant ainsi l’efficacité et l’efficience d’apprentissage de ce module. Composé du STDE et du TCT, le modèle proposé, nommé DisCoVQA (Temporal Distortion-Content Transformers for Video Quality Assessment), atteint des performances de pointe sur plusieurs benchmarks de VQA, sans nécessiter de données supplémentaires pour le pré-entraînement, et affiche une capacité de généralisation jusqu’à 10 % supérieure à celle des méthodes existantes. Nous menons également des expérimentations ablatives étendues pour démontrer l’efficacité de chaque composant de notre modèle, ainsi que des visualisations qui confirment que les modules proposés atteignent bien l’objectif visé dans la modélisation des problèmes temporels. Les codes source et les poids pré-entraînés seront publiés ultérieurement.

DisCoVQA : Transformateurs de distortion temporelle-contenu pour l’évaluation de la qualité vidéo | Articles de recherche récents | HyperAI