Réseau de Contexte Temporel pour la Localisation d'Activités dans les Vidéos

Nous présentons un réseau de contexte temporel (Temporal Context Network, TCN) pour la localisation temporelle précise des activités humaines. De manière similaire à l'architecture Faster-RCNN, des propositions sont placées à intervalles égaux dans une vidéo, couvrant plusieurs échelles temporelles. Nous proposons une nouvelle représentation pour classer ces propositions. Étant donné que le regroupement des caractéristiques uniquement à l'intérieur d'un segment n'est pas suffisant pour prédire les limites d'une activité, nous construisons une représentation qui capture explicitement le contexte autour d'une proposition afin de la classer. Pour chaque segment temporel à l'intérieur d'une proposition, les caractéristiques sont échantillonnées uniformément à une paire d'échelles et sont introduites dans un réseau neuronal convolutif temporel pour la classification. Après avoir classé les propositions, une suppression non maximale est appliquée et la classification est effectuée pour obtenir les détections finales. Le TCN surpasse les méthodes de pointe sur le jeu de données ActivityNet et le jeu de données THUMOS14.