HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage d’action supervisé par ensemble dans des vidéos de tâches procédurales via la cohérence d’ordre par paires

Ehsan Elhamifar Zijia Lu

Résumé

Nous abordons le problème de l'apprentissage d'actions supervisé par ensemble, dont l'objectif est d'apprendre un modèle de segmentation d'actions à l'aide d'une supervision faible sous la forme d'ensembles d'actions présentes dans des vidéos d'entraînement. Notre observation clé est que les vidéos appartenant à la même tâche présentent un ordre d'actions similaire, ce qui peut être exploité pour un apprentissage efficace. Ainsi, nous proposons une méthode basée sur l'attention, accompagnée d'une nouvelle fonction de perte appelée Consistance d'Ordre Pairwise (POC), qui encourage que pour chaque paire d'actions commune dans deux vidéos de la même tâche, les attentions attribuées à ces actions suivent un ordre similaire. Contrairement aux méthodes existantes d'alignement de séquences, qui entraînent des mauvaises correspondances d'actions dans des vidéos présentant des ordres différents ou qui ne parviennent pas à distinguer de manière fiable les ordres plus ou moins cohérents, notre fonction de perte POC permet un alignement efficace de vidéos présentant des ordres d'actions différents, tout en étant différentiable, ce qui permet un entraînement end-to-end. En outre, elle évite le processus coûteux en temps de génération de pseudo-étiquettes utilisé dans les travaux antérieurs. Notre méthode apprend efficacement les actions ainsi que leurs positions temporelles, étendant ainsi les méthodes existantes basées sur l'attention pour la localisation d'actions, qui se limitaient à apprendre une seule action par vidéo, à la prise en charge de plusieurs actions grâce à notre fonction de perte POC combinée à des pertes au niveau vidéo et au niveau cadre. Des expériences menées sur trois jeux de données montrent que notre méthode améliore significativement l'état de l'art. Nous démontrons également que, avec une légère modification, notre méthode peut efficacement traiter la tâche d'apprentissage d'actions supervisé par transcript, où les actions et leur ordre sont disponibles pendant l'entraînement.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Apprentissage d’action supervisé par ensemble dans des vidéos de tâches procédurales via la cohérence d’ordre par paires | Articles | HyperAI