HyperAIHyperAI
il y a 18 jours

Évaluation multimodale de la personnalité apparente à l’aide de l’attention aux caractéristiques et de la contrainte de cohérence des erreurs

{Hamdi Dibeklioğlu, Uğur Güdükbay, Süleyman Aslan}
Résumé

Les domaines du computing de la personnalité et du computing affectif, où la reconnaissance des traits de personnalité joue un rôle fondamental, ont suscité un intérêt croissant dans de nombreux domaines de recherche ces dernières années. Nous proposons une nouvelle approche pour reconnaître les cinq grands traits de personnalité à partir de vidéos. À cette fin, nous exploitons quatre modalités différentes : l’apparence ambiante (scène), l’apparence faciale, la voix et le discours transcrit. Grâce à un sous-réseau spécialisé pour chacune de ces modalités, notre modèle apprend des représentations fiables spécifiques à chaque modalité, puis les fusionne à l’aide d’un mécanisme d’attention qui répèse pondère chaque dimension de ces représentations afin d’obtenir une combinaison optimale d’informations multimodales. Une nouvelle fonction de perte est employée pour imposer au modèle une importance équivalente à chacun des traits de personnalité à estimer, via une contrainte de cohérence qui maintient les erreurs spécifiques à chaque trait aussi proches que possible. Pour renforcer davantage la fiabilité de notre modèle, nous utilisons des architectures d’état de l’art pré-entraînées (à savoir ResNet, VGGish, ELMo) comme squelettes des sous-réseaux spécifiques aux modalités, complétées par des réseaux à mémoire à longue courte durée (LSTM) à plusieurs couches afin de capturer les dynamiques temporelles. Afin de minimiser la complexité computationnelle de l’optimisation multimodale, nous adoptons une approche en deux étapes : les sous-réseaux spécifiques aux modalités sont d’abord entraînés individuellement, puis le réseau complet est finement ajusté pour modéliser conjointement les données multimodales. Sur le grand jeu de données ChaLearn First Impressions V2, nous évaluons la fiabilité de notre modèle ainsi que l’information apportée par les modalités considérées. Les résultats expérimentaux démontrent l’efficacité du mécanisme d’attention proposé ainsi que de la contrainte de cohérence des erreurs. Bien que les meilleures performances soient obtenues avec les informations faciales seules, l’utilisation des quatre modalités combinées permet à notre modèle d’atteindre une précision moyenne de 91,8 %, surpassant ainsi l’état de l’art en analyse automatique de la personnalité.