HyperAIHyperAI
il y a 2 mois

Espace de plongement sémantique pour la reconnaissance d’actions en zero-shot

Xun Xu; Timothy Hospedales; Shaogang Gong
Espace de plongement sémantique pour la reconnaissance d’actions en zero-shot
Résumé

Le nombre de catégories pour la reconnaissance d'actions augmente rapidement. Il devient donc de plus en plus difficile de recueillir des données d'entraînement suffisantes pour apprendre des modèles conventionnels pour chaque catégorie. Ce problème peut être atténué par le paradigme de « zero-shot learning » (ZSL) qui gagne en popularité. Dans ce cadre, une correspondance est établie entre les caractéristiques visuelles et une description sémantique interprétable par l'humain de chaque catégorie, permettant ainsi la reconnaissance des catégories en l'absence de toute donnée d'entraînement. Les études existantes sur le ZSL se concentrent principalement sur les données d'images et les représentations sémantiques basées sur les attributs. Dans cet article, nous abordons la reconnaissance zero-shot dans les tâches contemporaines de reconnaissance d'actions vidéo, en utilisant l'espace vectoriel sémantique des mots comme espace commun pour intégrer les vidéos et les étiquettes de catégories. Ceci est plus complexe car la correspondance entre l'espace sémantique et les caractéristiques spatio-temporelles des vidéos contenant des actions complexes est plus difficile à apprendre. Nous montrons qu'une stratégie simple d'auto-entraînement et d'augmentation de données peut considérablement améliorer l'efficacité de cette correspondance. Des expériences sur des jeux de données d'actions humaines, notamment HMDB51 et UCF101, démontrent que notre approche atteint des performances de reconnaissance zero-shot d'actions parmi les meilleures actuellement disponibles.

Espace de plongement sémantique pour la reconnaissance d’actions en zero-shot | Articles de recherche récents | HyperAI