Réseaux de Convolution Temporelle : Une Approche Unifiée pour la Segmentation d'Actions

Le paradigme dominant pour le segmentage d'actions basé sur la vidéo se compose de deux étapes : premièrement, pour chaque image, calculer des caractéristiques de bas niveau à l'aide de Trajectoires Denses ou d'un Réseau Neuronal Convolutif qui codent les informations spatio-temporelles localement ; deuxièmement, introduire ces caractéristiques dans un classifieur capable de capturer des relations temporelles de haut niveau, tel qu'un Réseau Neuronal Récurent (RNN). Bien que souvent efficace, cette dissociation nécessite de spécifier deux modèles distincts, chacun avec leurs propres complexités, et empêche la capture de relations spatio-temporelles à longue portée plus nuancées. Nous proposons une approche unifiée, comme le démontre notre Réseau de Convolutions Temporelles (TCN), qui capture hiérarchiquement les relations à différentes échelles temporelles, du bas niveau au haut niveau. Notre modèle atteint des performances supérieures ou compétitives en utilisant des données vidéo ou capteurs sur trois jeux de données publics de segmentage d'actions et peut être entraîné en une fraction du temps nécessaire pour entraîner un RNN.