Augmentation de Réseaux Neuronaux Profonds : Génération de Visages pour l'Analyse des Émotions

Ce document présente une nouvelle approche pour la synthèse d'expressions faciales, qu'il s'agisse des six expressions de base (à savoir, colère, dégoût, peur, joie, tristesse et surprise) ou en termes de valence (c'est-à-dire le degré de positivité ou de négativité d'une émotion) et d'activation (c'est-à-dire l'intensité de l'émotion). L'approche proposée accepte les entrées suivantes : i) une image 2D neutre d'une personne ; ii) une expression faciale de base ou un couple de descripteurs d'état émotionnel valence-activation (VA) à générer, ou un parcours affectif dans l'espace 2D VA à générer sous forme de séquence d'images. Pour synthétiser l'affect en termes de VA pour cette personne, $600\,000$ images du fichier 4DFAB ont été annotées. La synthèse d'affect est mise en œuvre en ajustant un modèle morphable 3D sur l'image neutre, puis en déformant le visage reconstruit et en ajoutant l'affect fourni, avant de fusionner le nouveau visage avec l'affect donné dans l'image originale. Des expériences qualitatives illustrent la génération d'images réalistes lorsque l'image neutre est prélevée parmi treize bases de données bien connues contrôlées en laboratoire ou naturelles (y compris Aff-Wild, AffectNet et RAF-DB) ; des comparaisons avec les réseaux adversaires génératifs (GANs) montrent la meilleure qualité atteinte par l'approche proposée. Ensuite, des expériences quantitatives sont menées, utilisant les images synthétiques pour augmenter les données lors de l'entraînement des réseaux neuronaux profonds afin d'effectuer la reconnaissance d'affect sur toutes les bases de données ; des performances considérablement améliorées sont obtenues par rapport aux méthodes les plus avancées actuellement disponibles ainsi qu'à l'augmentation des données basée sur les GANs dans tous les cas.