HyperAIHyperAI
il y a 11 jours

Maximisation et restauration : segmentation d’actions par passage dilaté et reconstruction temporelle

{Sungho Jo, Sejoon Huh, Daekyum Kim, Junyong Park}
Maximisation et restauration : segmentation d’actions par passage dilaté et reconstruction temporelle
Résumé

La segmentation d’actions vise à diviser les vidéos en segments correspondant à des actions différentes. Les travaux récents se concentrent sur la gestion des dépendances à longue portée dans les vidéos longues et non tronquées, mais souffrent encore de sur-segmentation et de saturation des performances dues à une complexité croissante du modèle. Ce papier aborde ces problèmes grâce à une stratégie de type « diviser pour régner » : elle commence par maximiser la précision de classification par trame du modèle, puis réduit les erreurs de sur-segmentation. Cette stratégie est mise en œuvre via un réseau de passage et de reconstruction à dilatation (Dilation Passing and Reconstruction Network), composé d’un réseau de passage à dilatation, dont l’objectif principal est d’améliorer la précision en propagant des informations issues de différentes dilatations, et d’un réseau de reconstruction temporelle, qui réduit les erreurs de sur-segmentation en codant et décodant temporellement les caractéristiques issues du réseau de passage à dilatation. Nous proposons également une perte d’erreur quadratique moyenne pondérée dans le temps, qui contribue davantage à atténuer la sur-segmentation. Des évaluations effectuées sur les jeux de données 50Salads, GTEA et Breakfast démontrent que notre modèle obtient des résultats significativement supérieurs à ceux des modèles d’état de l’art existants.

Maximisation et restauration : segmentation d’actions par passage dilaté et reconstruction temporelle | Articles de recherche récents | HyperAI