Command Palette
Search for a command to run...
Objects2action : Classification et localisation d'actions sans exemple vidéo
Objects2action : Classification et localisation d'actions sans exemple vidéo
Mihir Jain Jan C. van Gemert Thomas Mensink Cees G. M. Snoek
Résumé
L'objectif de cet article est de reconnaître les actions dans les vidéos sans nécessiter d'exemples. Contrairement aux approches traditionnelles à zéro exemple, nous ne requérons pas la conception et la spécification de classifieurs d'attributs et de mappages classe-attribut pour permettre le transfert des classes vues aux classes non vues. Notre contribution principale est objects2action, un plongement sémantique de mots généré par un modèle skip-gram basé sur des milliers de catégories d'objets. Les étiquettes d'action sont attribuées à une encodage d'objet de vidéo non vue en fonction d'une combinaison convexe des affinités action-objet. Notre plongement sémantique présente trois caractéristiques principales pour tenir compte des spécificités des actions. Premièrement, nous proposons un mécanisme pour exploiter les descriptions multi-mots des actions et des objets. Deuxièmement, nous intégrons la sélection automatique des objets les plus réactifs par action. Enfin, nous démontrons comment étendre notre approche à zéro exemple à la localisation spatio-temporelle des actions dans les vidéos. Des expériences menées sur quatre jeux de données d'actions montrent le potentiel de notre méthode.