Exploration des indices temporels pour améliorer la recherche vidéo sur le CDVA standardisé
À mesure que la demande croissante d’analyse vidéo à grande échelle se fait sentir, la recherche sur la récupération vidéo connaît également un regain d’activité. En 2014, l’ISO/IEC MPEG a lancé la normalisation des descripteurs compacts pour l’analyse vidéo, connus sous le nom de CDVA (Compact Descriptors for Video Analysis), qui est désormais adopté comme standard. Toutefois, le CDVA standardisé n’est pas facilement comparables aux autres méthodes, car le jeu de données MPEG-CDVA utilisé pour la validation des performances n’est pas publiquement disponible, malgré la poursuite d’études ultérieures impliquant plusieurs versions du modèle expérimental CDVA. De plus, les analyses des modules constitutifs du cadre CDVA restent insuffisantes dans les travaux antérieurs. Ainsi, nous menons une évaluation autonome du CDVA afin d’analyser l’impact de chaque module sur la tâche de récupération. Par ailleurs, afin de surmonter les obstacles identifiés lors de ces évaluations, nous proposons une méthode baptisée temporal nested invariance pooling (TNIP), qui renforce la robustesse temporelle en améliorant une des caractéristiques du CDVA, à savoir le nested invariance pooling (NIP). Enfin, nous fournissons des benchmarks comparatifs entre le CDVA existant et l’approche proposée sur plusieurs jeux de données publics. À travers ces expérimentations, nous démontrons que le cadre CDVA peut effectivement améliorer significativement les performances de récupération lorsqu’il est combiné avec l’approche proposée.