Modélisation multi-échelle des relations dynamiques et hiérarchiques pour la reconnaissance des unités d’action faciales

Les unités d'action faciales humaines (AUs) sont mutuellement liées de manière hiérarchique, non seulement parce qu'elles sont associées les unes aux autres dans les domaines spatiaux et temporels, mais aussi parce que les AUs situées dans les mêmes régions faciales ou à proximité présentent des relations plus fortes que celles situées dans des régions faciales différentes. Bien que aucune approche existante ne modélise complètement ces interdépendances hiérarchiques entre les AUs, cet article propose une modélisation exhaustive des relations dynamiques et hiérarchiques spatio-temporelles multi-échelles entre les AUs pour la reconnaissance de leurs occurrences. Plus précisément, nous proposons tout d'abord un nouveau réseau de différenciation temporelle multi-échelle doté d'un bloc de pondération adaptative pour capturer explicitement la dynamique faciale entre les images à différentes échelles spatiales, en tenant compte spécifiquement de l'hétérogénéité de la portée et de l'amplitude dans l'activation des différents AUs. Ensuite, une stratégie en deux étapes est introduite pour modéliser hiérarchiquement les relations entre les AUs en fonction de leur distribution spatiale (c'est-à-dire la modélisation des relations locales et inter-régionales des AUs). Les résultats expérimentaux obtenus sur BP4D et DISFA montrent que notre approche représente le nouvel état de l'art dans le domaine de la reconnaissance des occurrences d'AUs. Notre code est disponible au public sur https://github.com/CVI-SZU/MDHR.