Écoutez-moi : Des Approches Fusionnelles pour la Localisation Temporelle des Actions Audio-Étendues

Les architectures les plus avancées pour la localisation temporelle d’actions dans des vidéos non tronquées (TAL, Temporal Action Localization) se sont limitées aux modalités RGB et Flow, laissant totalement inexplorée la modality audio, riche en informations. La fusion audio a été étudiée pour un problème connexe, mais probablement plus simple, que constitue la reconnaissance d’actions au niveau des clips (clip-level). Toutefois, la TAL pose un ensemble de défis particuliers. Dans ce papier, nous proposons des approches de fusion simples mais efficaces pour la TAL. À notre connaissance, notre travail est le premier à envisager conjointement les modalités audio et vidéo dans le cadre de la TAL supervisée. Nous démontrons expérimentalement que nos méthodes améliorent de manière cohérente les performances des approches de TAL vidéo uniquement les plus avancées. En particulier, elles permettent d’atteindre de nouveaux états de l’art sur des jeux de données de grande taille – ActivityNet-1.3 (54,34 mAP@0,5) et THUMOS14 (57,18 mAP@0,5). Nos expérimentations incluent des analyses d’ablation portant sur plusieurs schémas de fusion, combinaisons de modalités et architectures de TAL. Le code, les modèles ainsi que les données associées sont disponibles à l’adresse suivante : https://github.com/skelemoa/tal-hmo.