TemporalMaxer : Maximiser le contexte temporel à l’aide uniquement du pooling maximal pour la localisation d’actions temporelles

La localisation d’actions temporelles (TAL) est une tâche exigeante en compréhension vidéo, visant à identifier et localiser des actions au sein d’une séquence vidéo. Les études récentes ont mis en évidence l’importance de l’application de blocs de modélisation du contexte temporel à long terme (TCM) sur les caractéristiques extraitees des clips vidéo, par exemple en utilisant des mécanismes d’attention auto-complexe. Dans ce papier, nous proposons la méthode la plus simple jamais conçue pour aborder cette tâche, et nous soutenons que les caractéristiques de clips vidéo extraites sont déjà suffisamment informatives pour atteindre des performances exceptionnelles sans recourir à des architectures complexes. À cette fin, nous introduisons TemporalMaxer, une approche qui minimise la modélisation du contexte temporel à long terme tout en maximisant l’information tirée des caractéristiques extraites des clips vidéo, grâce à un bloc de pooling max local, élémentaire, sans paramètre et opérant uniquement sur des régions locales. En ne retenant que les informations les plus critiques pour les embeddings de clips adjacents et locaux, ce bloc permet de concevoir un modèle TAL plus efficace. Nous démontrons que TemporalMaxer surpasser d’autres méthodes de pointe utilisant des modèles TCM à long terme, comme l’attention auto, sur diverses bases de données TAL, tout en nécessitant significativement moins de paramètres et de ressources computationnelles. Le code de notre approche est disponible publiquement à l’adresse suivante : https://github.com/TuanTNG/TemporalMaxer