HyperAIHyperAI

Command Palette

Search for a command to run...

Transformateur à renforcement croisé pour la segmentation d’actions

Jiahui Wang Zhenyou Wang Shanna Zhuang Hui Wang

Résumé

Les convolutions temporelles constituent depuis longtemps le paradigme privilégié pour la segmentation d’actions, car elles permettent d’étendre le champ réceptif à long terme en augmentant le nombre de couches de convolution. Toutefois, les couches profondes entraînent une perte d’informations locales essentielles à la reconnaissance des trames. Pour résoudre ce problème, nous proposons dans cet article une nouvelle architecture encodeur-décodeur, nommée Cross-Enhancement Transformer. Notre approche permet une apprentissage efficace de la représentation des structures temporelles grâce à un mécanisme d’attention interactive. Plus précisément, nous concaténons les cartes de caractéristiques issues de chaque couche de convolution de l’encodeur avec un ensemble de caractéristiques générées dans le décodeur via une attention auto-attentionnelle. Ainsi, les informations locales et globales sont exploitées simultanément dans la modélisation des actions trame par trame. Par ailleurs, nous introduisons une nouvelle fonction de perte visant à améliorer le processus d’entraînement en pénalisant les erreurs de sur-segmentation. Les expériences montrent que notre cadre atteint des performances de pointe sur trois jeux de données exigeants : 50Salads, Georgia Tech Egocentric Activities et Breakfast.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp