HyperAIHyperAI
il y a 2 mois

Segmentation vidéo d'acteur et d'action à partir d'une phrase

Kirill Gavrilyuk; Amir Ghodrati; Zhenyang Li; Cees G.M. Snoek
Segmentation vidéo d'acteur et d'action à partir d'une phrase
Résumé

Ce travail vise à réaliser une segmentation au niveau des pixels des acteurs et de leurs actions dans le contenu vidéo. Contrairement aux travaux existants, qui apprennent tous à segmenter à partir d'un vocabulaire fixe de paires acteur-action, nous inférons la segmentation à partir d'une phrase en langage naturel. Cela permet de distinguer entre des acteurs finement granulaires appartenant à la même catégorie supérieure, d'identifier les instances d'acteurs et d'actions, ainsi que de segmenter des paires qui se trouvent en dehors du vocabulaire d'acteurs et d'actions. Nous proposons un modèle entièrement convolutif pour la segmentation au niveau des pixels des acteurs et des actions, utilisant une architecture encodeur-décodeur optimisée pour les vidéos. Pour démontrer le potentiel de la segmentation vidéo d'acteurs et d'actions à partir d'une phrase, nous avons étendu deux jeux de données populaires sur les acteurs et les actions avec plus de 7 500 descriptions en langage naturel. Les expériences montrent la qualité des segmentations guidées par les phrases, la capacité de généralisation de notre modèle, ainsi que son avantage pour la segmentation traditionnelle des acteurs et des actions par rapport à l'état de l'art.

Segmentation vidéo d'acteur et d'action à partir d'une phrase | Articles de recherche récents | HyperAI