ChipQA : Prédiction de la qualité vidéo sans référence par des puces espace-temps

Nous proposons un nouveau modèle pour l’évaluation de la qualité vidéo sans référence (VQA). Notre approche repose sur une nouvelle notion de tranches espace-temps (ST) fortement localisées appelées « Space-Time Chips » (ST Chips). Ces ST Chips correspondent à des coupes localisées des données vidéo selon des directions qui captent de manière implicite le mouvement. Nous appliquons d’abord des modèles de filtrage passe-bande motivés par la perception et des procédés de normalisation aux données vidéo, puis sélectionnons des ST Chips orientées en fonction de la qualité de leur ajustement à des modèles paramétriques des statistiques naturelles des vidéos. Nous démontrons que les paramètres décrivant ces statistiques peuvent être utilisés de manière fiable pour prédire la qualité vidéo, sans nécessiter de vidéo de référence. La méthode proposée modélise implicitement la naturalité vidéo espace-temps ainsi que les écarts par rapport à cette naturalité. Nous entraînons et testons notre modèle sur plusieurs bases de données VQA de grande taille, et montrons qu’il atteint des performances de pointe tout en réduisant les coûts computationnels, sans avoir besoin de calculer explicitement le mouvement.