Pipeline de transfert d'apprentissage à plusieurs étapes basée sur les images RGB pour la reconnaissance d'activités manuelles
La reconnaissance d’activités manuelles en perspective subjective constitue une tâche particulièrement difficile, notamment lorsque les données disponibles sont insuffisantes. Dans cet article, nous abordons ce défi en proposant une nouvelle pipeline d’apprentissage à faible coût en plusieurs étapes pour la reconnaissance d’activités manuelles à partir d’images RGB en perspective subjective, sur un volume limité de données. Pour une séquence d’images RGB donnée, la première étape consiste à extraire les régions d’intérêt à l’aide d’un réseau de neurones pré-entraîné (NN). Dans une deuxième étape, des caractéristiques spatiales de haut niveau sont extraites à l’aide de réseaux profonds pré-entraînés. La troisième étape vise à modéliser les dépendances temporelles. Enfin, dans la dernière étape, un classificateur de séquences d’activités manuelles est appris via une stratégie de fusion postérieure, appliquée aux dépendances temporelles précédemment apprises. Les expérimentations menées sur deux jeux de données réels démontrent que notre pipeline atteint l’état de l’art. En outre, les résultats montrent que la pipeline proposée obtient des performances satisfaisantes même avec des données limitées.