Reconnaissance d'Actions Contextuelles avec R*CNN

Il existe de multiples indices dans une image qui révèlent l'action qu'une personne est en train d'effectuer. Par exemple, un joggeur adopte une posture caractéristique du jogging, mais la scène (par exemple, route, sentier) et la présence d'autres joggeurs peuvent constituer une source supplémentaire d'information. Dans ce travail, nous exploitons l'observation simple que les actions sont accompagnées d'indices contextuels pour construire un système robuste de reconnaissance des actions. Nous adaptons le RCNN afin qu'il utilise plus d'une région pour la classification tout en conservant la capacité de localiser l'action. Nous appelons notre système RCNN. Les modèles spécifiques aux actions et les cartes de caractéristiques sont entraînés conjointement, permettant ainsi l'émergence de représentations spécifiques aux actions. Le RCNN atteint 90,2 % de moyenne AP sur le jeu de données PASAL VOC Action, surpassant toutes les autres approches du domaine avec une marge significative. Enfin, nous montrons que le RCNN n'est pas limité à la reconnaissance des actions. Plus particulièrement, le RCNN peut également être utilisé pour aborder des tâches fines comme la classification des attributs. Nous validons cette affirmation en rapportant des performances à l'état de l'art sur le jeu de données Berkeley Attributes of People.