HyperAIHyperAI
il y a 11 jours

Apprentissage d’action supervisé par ensemble dans des vidéos de tâches procédurales via la cohérence d’ordre par paires

{Ehsan Elhamifar, Zijia Lu}
Apprentissage d’action supervisé par ensemble dans des vidéos de tâches procédurales via la cohérence d’ordre par paires
Résumé

Nous abordons le problème de l'apprentissage d'actions supervisé par ensemble, dont l'objectif est d'apprendre un modèle de segmentation d'actions à l'aide d'une supervision faible sous la forme d'ensembles d'actions présentes dans des vidéos d'entraînement. Notre observation clé est que les vidéos appartenant à la même tâche présentent un ordre d'actions similaire, ce qui peut être exploité pour un apprentissage efficace. Ainsi, nous proposons une méthode basée sur l'attention, accompagnée d'une nouvelle fonction de perte appelée Consistance d'Ordre Pairwise (POC), qui encourage que pour chaque paire d'actions commune dans deux vidéos de la même tâche, les attentions attribuées à ces actions suivent un ordre similaire. Contrairement aux méthodes existantes d'alignement de séquences, qui entraînent des mauvaises correspondances d'actions dans des vidéos présentant des ordres différents ou qui ne parviennent pas à distinguer de manière fiable les ordres plus ou moins cohérents, notre fonction de perte POC permet un alignement efficace de vidéos présentant des ordres d'actions différents, tout en étant différentiable, ce qui permet un entraînement end-to-end. En outre, elle évite le processus coûteux en temps de génération de pseudo-étiquettes utilisé dans les travaux antérieurs. Notre méthode apprend efficacement les actions ainsi que leurs positions temporelles, étendant ainsi les méthodes existantes basées sur l'attention pour la localisation d'actions, qui se limitaient à apprendre une seule action par vidéo, à la prise en charge de plusieurs actions grâce à notre fonction de perte POC combinée à des pertes au niveau vidéo et au niveau cadre. Des expériences menées sur trois jeux de données montrent que notre méthode améliore significativement l'état de l'art. Nous démontrons également que, avec une légère modification, notre méthode peut efficacement traiter la tâche d'apprentissage d'actions supervisé par transcript, où les actions et leur ordre sont disponibles pendant l'entraînement.

Apprentissage d’action supervisé par ensemble dans des vidéos de tâches procédurales via la cohérence d’ordre par paires | Articles de recherche récents | HyperAI