Représentations agrégées temporelles pour la compréhension vidéo à longue portée

La prédiction de l’avenir, en particulier dans les vidéos à long terme, nécessite une inférence basée sur les observations actuelles et passées. Dans ce travail, nous abordons les questions relatives à l’étendue temporelle, à l’échelle et au niveau d’abstraction sémantique à l’aide d’un cadre flexible d’agrégation temporelle multi-granulaire. Nous démontrons qu’il est possible d’atteindre l’état de l’art tant pour la prédiction de l’action suivante que pour l’anticipation dense en utilisant des techniques simples telles que le max-pooling et l’attention. Pour illustrer les capacités d’anticipation de notre modèle, nous menons des expériences sur les jeux de données Breakfast, 50Salads et EPIC-Kitchens, où nous obtenons des résultats à l’état de l’art. Avec des modifications minimales, notre modèle peut également être étendu à la segmentation vidéo et à la reconnaissance d’actions.