Transformateur à renforcement croisé pour la segmentation d’actions

Les convolutions temporelles constituent depuis longtemps le paradigme privilégié pour la segmentation d’actions, car elles permettent d’étendre le champ réceptif à long terme en augmentant le nombre de couches de convolution. Toutefois, les couches profondes entraînent une perte d’informations locales essentielles à la reconnaissance des trames. Pour résoudre ce problème, nous proposons dans cet article une nouvelle architecture encodeur-décodeur, nommée Cross-Enhancement Transformer. Notre approche permet une apprentissage efficace de la représentation des structures temporelles grâce à un mécanisme d’attention interactive. Plus précisément, nous concaténons les cartes de caractéristiques issues de chaque couche de convolution de l’encodeur avec un ensemble de caractéristiques générées dans le décodeur via une attention auto-attentionnelle. Ainsi, les informations locales et globales sont exploitées simultanément dans la modélisation des actions trame par trame. Par ailleurs, nous introduisons une nouvelle fonction de perte visant à améliorer le processus d’entraînement en pénalisant les erreurs de sur-segmentation. Les expériences montrent que notre cadre atteint des performances de pointe sur trois jeux de données exigeants : 50Salads, Georgia Tech Egocentric Activities et Breakfast.