Segmentation vidéo d'acteur et d'action à partir d'une phrase

Ce travail vise à réaliser une segmentation au niveau des pixels des acteurs et de leurs actions dans le contenu vidéo. Contrairement aux travaux existants, qui apprennent tous à segmenter à partir d'un vocabulaire fixe de paires acteur-action, nous inférons la segmentation à partir d'une phrase en langage naturel. Cela permet de distinguer entre des acteurs finement granulaires appartenant à la même catégorie supérieure, d'identifier les instances d'acteurs et d'actions, ainsi que de segmenter des paires qui se trouvent en dehors du vocabulaire d'acteurs et d'actions. Nous proposons un modèle entièrement convolutif pour la segmentation au niveau des pixels des acteurs et des actions, utilisant une architecture encodeur-décodeur optimisée pour les vidéos. Pour démontrer le potentiel de la segmentation vidéo d'acteurs et d'actions à partir d'une phrase, nous avons étendu deux jeux de données populaires sur les acteurs et les actions avec plus de 7 500 descriptions en langage naturel. Les expériences montrent la qualité des segmentations guidées par les phrases, la capacité de généralisation de notre modèle, ainsi que son avantage pour la segmentation traditionnelle des acteurs et des actions par rapport à l'état de l'art.