AU R-CNN : Intégration de connaissances a priori d'experts dans R-CNN pour la détection d'unités d'action

La détection d'unités d'action (AUs) sur les visages humains est un défi en raison des changements subtils de l'apparence faciale que diverses AUs provoquent dans différentes régions et à différentes échelles. Les travaux actuels ont tenté de reconnaître les AUs en mettant l'accent sur des régions importantes. Cependant, l'intégration des connaissances a priori des experts dans la définition des régions reste sous-exploitée, et les approches actuelles de détection d'AUs ne utilisent pas de réseaux neuronaux convolutifs régionaux (R-CNN) avec des connaissances a priori d'experts pour se concentrer directement et de manière adaptative sur les régions liées aux AUs. En intégrant ces connaissances a priori d'experts, nous proposons un nouveau modèle basé sur R-CNN nommé AU R-CNN. La solution proposée offre deux contributions principales : (1) AU R-CNN observe directement différentes régions faciales où se trouvent diverses AUs. Plus précisément, nous définissons une règle de partition d'AUs qui encode les connaissances a priori d'experts dans la définition des régions et la définition des étiquettes au niveau RoI. Cette conception produit une performance de détection nettement meilleure que celle des approches existantes. (2) Nous intégrons divers modèles dynamiques (y compris les réseaux convolutifs à mémoire à court et long terme, le réseau à deux flux, le champ aléatoire conditionnel et le réseau de localisation temporelle d'action) dans AU R-CNN, puis nous examinons et analysons les raisons derrière la performance des modèles dynamiques. Les résultats expérimentaux montrent que \textit{seules} les informations statiques issues des images RGB sans flux optique permettent à AU R-CNN de surpasser celui fusionné avec des modèles dynamiques. AU R-CNN est également supérieur aux CNN traditionnels qui utilisent le même squelette sur différentes résolutions d'images. Des performances de reconnaissance d'AUs inégalées sont ainsi atteintes. Le réseau complet est entraînable bout-à-bout. Les expériences menées sur les jeux de données BP4D et DISFA montrent l'efficacité de notre approche. Le code source de l'implémentation est disponible en ligne.