HyperAIHyperAI
il y a 17 jours

Segmentation en temps réel sensible au progrès des actions pour les vidéos de tâches procédurales en perspective egocentrique

{Ehsan Elhamifar, YuHan Shen}
Segmentation en temps réel sensible au progrès des actions pour les vidéos de tâches procédurales en perspective egocentrique
Résumé

Nous abordons le problème de la segmentation d’actions en ligne pour les vidéos procédurales en perspective subjective. Alors que les études antérieures se sont principalement concentrées sur la segmentation d’actions hors ligne, où l’intégralité de la vidéo est disponible tant pour l’entraînement que pour l’inférence, le passage à la segmentation d’actions en ligne est crucial pour les applications pratiques telles que les assistants tâches pour la réalité augmentée (AR) ou la réalité virtuelle (VR). Notamment, l’application directe d’un modèle entraîné hors ligne à l’inférence en ligne entraîne une baisse significative des performances en raison de l’incohérence entre les phases d’entraînement et d’inférence. Nous proposons un cadre de segmentation d’actions en ligne en trois étapes : premièrement, nous modifions les architectures existantes pour les rendre causales ; deuxièmement, nous développons un module original de prédiction du progrès d’action afin d’estimer dynamiquement l’évolution des actions en cours, et d’utiliser ces estimations pour affiner les prédictions de segmentation causale ; troisièmement, nous proposons d’apprendre des graphes de tâches à partir des vidéos d’entraînement, et de les exploiter pour obtenir des segmentations fluides et cohérentes avec la procédure. En combinant le progrès d’action et les graphes de tâches avec la segmentation causale, notre cadre permet efficacement de surmonter l’incertitude de prédiction et le sur-segmentation propres à la segmentation en ligne, et réalise une amélioration notable sur trois jeux de données en perspective subjective.