HyperAIHyperAI
il y a 11 jours

ASFormer : Transformer pour la segmentation d'actions

Fangqiu Yi, Hongyu Wen, Tingting Jiang
ASFormer : Transformer pour la segmentation d'actions
Résumé

Les algorithmes destinés à la tâche de segmentation d’actions utilisent généralement des modèles temporels pour prédire quelle action se produit à chaque trame au cours d’une activité quotidienne d’une durée d’une minute. Des études récentes ont mis en évidence le potentiel des Transformers dans la modélisation des relations entre les éléments dans les données séquentielles. Toutefois, plusieurs préoccupations majeures surviennent lors de l’application directe du Transformer à la tâche de segmentation d’actions : le manque de biais inductifs avec de petits ensembles d’entraînement, la difficulté à traiter des séquences d’entrée longues, ainsi que les limitations de l’architecture du décodeur dans l’exploitation des relations temporelles entre plusieurs segments d’actions afin de raffiner les prédictions initiales. Pour répondre à ces défis, nous proposons un modèle efficace basé sur le Transformer pour la segmentation d’actions, nommé ASFormer, caractérisé par trois particularités distinctes : (i) nous intégrons explicitement des prioris inductifs de connectivité locale, en raison de la forte localité des caractéristiques ; cela restreint l’espace d’hypothèses à une portée fiable, ce qui est bénéfique pour apprendre une fonction cible appropriée même avec de petits ensembles d’entraînement ; (ii) nous adoptons un schéma de représentation hiérarchique prédéfini, permettant un traitement efficace des séquences d’entrée longues ; (iii) nous concevons soigneusement le décodeur afin de raffiner les prédictions initiales issues de l’encodeur. Des expériences étendues sur trois jeux de données publics démontrent l’efficacité de notre approche. Le code est disponible à l’adresse \url{https://github.com/ChinaYi/ASFormer}.

ASFormer : Transformer pour la segmentation d'actions | Articles de recherche récents | HyperAI