Faites-vous preuve de comportement conforme à votre parole ? Exploration de la classification des actions de conducteur basée sur la pose à l’aide de réseaux de reconnaissance vocale
La détection des distractions sur la route est essentielle pour réduire les accidents de trafic. Les réseaux basés sur les vidéos sont généralement utilisés, mais ils sont limités par leur coût computationnel élevé et sont sensibles aux variations de point de vue. Dans cet article, nous proposons une nouvelle approche pour la classification des actions du conducteur basée sur la posture, utilisant des réseaux de reconnaissance vocale, qui sont plus légers et plus invariants par rapport aux changements de point de vue que les méthodes basées sur les vidéos. Nous exploitons la similarité dans le codage de l’information entre les données audio et les données de posture, en représentant les postures sous forme de points clés au fil du temps. Notre architecture repose sur Squeezeformer, un réseau efficace de reconnaissance vocale fondé sur l’attention. Nous introduisons une série de techniques d’augmentation de données afin d’améliorer la généralisation. Des expériences menées sur le jeu de données Drive&Act démontrent une performance supérieure par rapport aux méthodes de pointe. En outre, nous explorons l’intégration d’informations objets ainsi que l’impact des variations de point de vue. Nos résultats mettent en évidence l’efficacité et la robustesse des réseaux de reconnaissance vocale dans la classification d’actions basée sur la posture.