Vision robotique et synergie à plusieurs vues : reconnaissance d’actions et d’activités dans des scénarios de vie assistée
L'importance de l'interaction homme-robot (HRI) devient de plus en plus évidente lors de l'intégration de la robotique dans des environnements centrés sur l'humain. Un élément crucial d'une HRI efficace est la reconnaissance d'activités humaines (HAR), qui permet aux robots de réagir de manière appropriée en présence d'humains, notamment dans les environnements de vie assistée ambiant (AAL). Étant donné que les robots sont généralement mobiles et que leur perception visuelle est souvent altérée par le mouvement et le bruit, ce papier évalue des méthodes consistant à fusionner la perspective mobile du robot avec une vue statique à l’aide de modèles d’apprentissage profond multi-vues. Nous proposons un modèle à deux flux basé sur le Convolutional 3D (C3D) afin d’améliorer la précision de la HAR basée sur la vision pour les applications robotiques. En utilisant le jeu de données Robot House Multiview (RHM), qui inclut une perspective robotique ainsi que trois vues statiques (Devant, Derrière, Haut), nous évaluons l’efficacité de notre modèle et comparons ses performances aux modèles à deux flux ConvNet et Slow-Fast. L’objectif principal de cette étude est d’améliorer la précision des vues provenant du robot en les intégrant à des vues statiques à l’aide de modèles à deux flux. Les métriques d’évaluation incluent la précision Top-1 et Top-5. Nos résultats montrent qu’une intégration des vues statiques avec les perspectives robotiques conduit à une amélioration significative de la précision de la HAR, tant selon la métrique Top-1 que Top-5, pour tous les modèles testés. En outre, le modèle C3D à deux flux proposé présente des performances supérieures par rapport aux autres modèles contemporains dans nos évaluations.