Apprentissage de la reconnaissance d'activités procédurales par supervision à distance

Dans cet article, nous abordons le problème de la classification d'activités fines à plusieurs étapes (par exemple, cuisiner différentes recettes, réaliser divers aménagements domestiques, créer diverses formes d'art et de bricolage) à partir de vidéos longues d'une durée pouvant atteindre plusieurs minutes. Une catégorisation précise de ces activités nécessite non seulement la reconnaissance des étapes individuelles qui composent la tâche, mais aussi la capture de leurs dépendances temporelles. Ce problème diffère fortement de la classification d'actions traditionnelle, où les modèles sont généralement optimisés sur des vidéos d'une durée de quelques secondes, et soigneusement coupées pour ne contenir que des actions atomiques simples. Bien que l'annotation des étapes puisse permettre l'entraînement de modèles capables de reconnaître les étapes individuelles des activités procédurales, les jeux de données à grande échelle existants dans ce domaine ne comprennent pas de balises segmentaires, en raison du coût prohibitif de l'annotation manuelle des frontières temporelles dans des vidéos longues. Pour pallier ce problème, nous proposons d'identifier automatiquement les étapes dans les vidéos explicatives en exploitant la supervision à distance fournie par une base de connaissances textuelles (wikiHow), qui contient des descriptions détaillées des étapes nécessaires à l'exécution d'une grande variété d'activités complexes. Notre méthode utilise un modèle linguistique pour associer le discours automatiquement transcrit (parfois bruité) extrait de la vidéo aux descriptions d'étapes présentes dans la base de connaissances. Nous démontrons que les modèles vidéo entraînés pour reconnaître ces étapes automatiquement étiquetées (sans supervision manuelle) produisent une représentation capable d'obtenir des performances supérieures en généralisation sur quatre tâches ultérieures : reconnaissance d'activités procédurales, classification d'étapes, prédiction d'étapes et classification de vidéos égocentriques.