Command Palette
Search for a command to run...
Modèles récurrents pour la reconnaissance de situation
Modèles récurrents pour la reconnaissance de situation
Mallya Arun Lazebnik Svetlana
Résumé
Ce travail propose des modèles à réseaux de neurones récurrents (RNN) pour prédire des « situations d’image structurées » — à savoir des actions ainsi que des entités nominales remplies de rôles sémantiques liés à l’action. Contrairement aux travaux antérieurs reposant sur des champs aléatoires conditionnels (CRF), nous utilisons tout d’abord un réseau spécialisé pour la prédiction des actions, suivi d’un RNN pour la prédiction des noms. Notre système atteint une précision de pointe sur le jeu de données récent et exigeant imSitu, surpassant les modèles basés sur les CRF, y compris ceux entraînés avec des données supplémentaires. En outre, nous démontrons que des caractéristiques spécialisées apprises à partir de la prédiction des situations peuvent être transférées à la tâche de génération de légendes d’image afin de décrire plus précisément les interactions homme-objet.