HyperAIHyperAI
il y a 2 mois

Objects2action : Classification et localisation d'actions sans exemple vidéo

Mihir Jain; Jan C. van Gemert; Thomas Mensink; Cees G. M. Snoek
Objects2action : Classification et localisation d'actions sans exemple vidéo
Résumé

L'objectif de cet article est de reconnaître les actions dans les vidéos sans nécessiter d'exemples. Contrairement aux approches traditionnelles à zéro exemple, nous ne requérons pas la conception et la spécification de classifieurs d'attributs et de mappages classe-attribut pour permettre le transfert des classes vues aux classes non vues. Notre contribution principale est objects2action, un plongement sémantique de mots généré par un modèle skip-gram basé sur des milliers de catégories d'objets. Les étiquettes d'action sont attribuées à une encodage d'objet de vidéo non vue en fonction d'une combinaison convexe des affinités action-objet. Notre plongement sémantique présente trois caractéristiques principales pour tenir compte des spécificités des actions. Premièrement, nous proposons un mécanisme pour exploiter les descriptions multi-mots des actions et des objets. Deuxièmement, nous intégrons la sélection automatique des objets les plus réactifs par action. Enfin, nous démontrons comment étendre notre approche à zéro exemple à la localisation spatio-temporelle des actions dans les vidéos. Des expériences menées sur quatre jeux de données d'actions montrent le potentiel de notre méthode.

Objects2action : Classification et localisation d'actions sans exemple vidéo | Articles de recherche récents | HyperAI