HyperAIHyperAI
il y a 2 mois

SCSampler : Échantillonnage de clips saillants à partir de vidéos pour une reconnaissance d'actions efficace

Bruno Korbar; Du Tran; Lorenzo Torresani
SCSampler : Échantillonnage de clips saillants à partir de vidéos pour une reconnaissance d'actions efficace
Résumé

Alors que de nombreux ensembles de données pour la reconnaissance d'actions sont constitués de collections de vidéos brèves et coupées, chacune contenant une action pertinente, les vidéos du monde réel (par exemple, sur YouTube) présentent des propriétés très différentes : elles sont souvent plusieurs minutes de long, où des séquences brèves et pertinentes sont souvent entrecoupées de segments de durée prolongée contenant peu de changements. L'application d'un système de reconnaissance d'actions à chaque segment temporel au sein de telles vidéos est extrêmement coûteuse. De plus, comme nous le montrons dans nos expériences, cela entraîne une précision de reconnaissance sous-optimale car les prédictions informatives issues des séquences pertinentes sont largement surpassées par les sorties de classification dépourvues de sens sur les longues sections non informatives de la vidéo. Dans cet article, nous introduisons un modèle léger de « sélection temporelle » qui peut identifier efficacement les segments temporels les plus saillants au sein d'une vidéo longue. Nous démontrons que le coût computationnel de la reconnaissance d'actions sur des vidéos non coupées peut être considérablement réduit en n'invoquant la reconnaissance que sur ces segments les plus saillants. De plus, nous montrons que cela entraîne des gains significatifs en termes de précision de reconnaissance par rapport à l'analyse de tous les segments ou à la sélection aléatoire/uniforme des segments. Sur Sports1M, notre méthode de sélection temporelle améliore la précision d'un classifieur d'actions déjà performant (state-of-the-art) de 7 % et réduit son coût computationnel d'un facteur supérieur à 15.