Localisation Temporelle d'Actions avec Discriminabilité Instantanée Améliorée

La détection d’actions temporelles (TAD) vise à détecter toutes les bornes d’actions ainsi que leurs catégories correspondantes dans une vidéo non coupée. Les bornes d’actions floues présentes dans les vidéos entraînent souvent des prédictions imprécises des bornes d’actions par les méthodes existantes. Pour résoudre ce problème, nous proposons un cadre à une étape appelé TriDet. Premièrement, nous introduisons une tête Trident pour modéliser les bornes d’actions à l’aide d’une distribution de probabilité relative estimée autour de la borne. Ensuite, nous analysons le problème de perte de classe (c’est-à-dire la dégradation de la discriminabilité instantanée) rencontré dans les méthodes basées sur les transformateurs, et proposons une couche d’aperception à granularité évolutive (SGP) efficace et évolutive afin de pallier ce défaut. Pour aller plus loin dans l’amélioration de la discriminabilité instantanée au sein du modèle d’arrière-plan vidéo, nous exploitons la puissante capacité de représentation des grands modèles préentraînés et étudions leur performance sur la TAD. Enfin, en tenant compte du contexte spatio-temporel adéquat pour la classification, nous concevons un réseau pyramidale de caractéristiques déconnecté, comprenant des pyramides de caractéristiques séparées, afin d’intégrer un contexte spatial riche provenant du grand modèle pour la localisation. Les résultats expérimentaux démontrent la robustesse de TriDet ainsi que ses performances de pointe sur plusieurs jeux de données de TAD, y compris des jeux de données hiérarchiques (multi-étiquettes) de TAD.