HyperAIHyperAI

Command Palette

Search for a command to run...

MS-TCN : Réseau de convolution temporelle multi-étapes pour la segmentation d'actions

Yazan Abu Farha; Juergen Gall

Résumé

La localisation temporelle et la classification des segments d'action dans de longues vidéos non coupées sont d'un intérêt particulier pour de nombreuses applications telles que la surveillance et la robotique. Alors que les approches traditionnelles suivent une pipeline en deux étapes, consistant à générer des probabilités par image puis à les alimenter à des modèles temporels de haut niveau, les approches récentes utilisent des convolutions temporelles pour classifier directement les images de la vidéo. Dans cet article, nous introduisons une architecture multi-étapes pour la tâche de segmentation temporelle d'action. Chaque étape présente un ensemble de convolutions temporelles dilatées pour générer une prédiction initiale qui est ensuite raffinée par l'étape suivante. Cette architecture est entraînée en utilisant une combinaison d'une perte de classification et d'une perte de lissage proposée, qui pénalise les erreurs de sur-segmentation. Une évaluation extensive montre l'efficacité du modèle proposé dans la capture des dépendances à long terme et la reconnaissance des segments d'action. Notre modèle obtient des résultats de pointe sur trois jeux de données difficiles : 50Salads, Georgia Tech Egocentric Activities (GTEA) et le jeu de données Breakfast.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp