Apprentissage faiblement supervisé à travers les tâches à partir de vidéos d'instruction

Dans cet article, nous étudions l’apprentissage de modèles visuels pour les étapes de tâches ordinaires en utilisant une supervision faible basée sur des narrations explicatives et une liste ordonnée des étapes, plutôt qu’une supervision forte fondée sur des annotations temporelles. Au cœur de notre approche réside l’observation selon laquelle l’apprentissage supervisé de manière faible peut être facilité si un modèle partage des composants lors de l’apprentissage de différentes étapes : par exemple, « verser l’œuf » devrait être appris conjointement avec d’autres tâches impliquant « verser » et « œuf ». Nous formalisons cette idée à travers un modèle de composants pour la reconnaissance des étapes, ainsi qu’un cadre d’apprentissage faiblement supervisé capable d’apprendre ce modèle sous contraintes temporelles issues de la narration et de la liste des étapes. Les données antérieures ne permettent pas d’étudier systématiquement le partage entre tâches, aussi avons-nous recueilli un nouveau jeu de données, CrossTask, visant à évaluer le partage entre tâches. Nos expériences montrent que le partage entre tâches améliore les performances, en particulier lorsqu’il est effectué au niveau des composants, et que notre modèle de composants est capable de traiter des tâches auparavant inconnues grâce à sa capacité de compositionnalité.