HyperAIHyperAI
il y a 11 jours

Fusion par auto-attention pour la reconnaissance émotionnelle audiovisuelle avec des données incomplètes

Kateryna Chumachenko, Alexandros Iosifidis, Moncef Gabbouj
Fusion par auto-attention pour la reconnaissance émotionnelle audiovisuelle avec des données incomplètes
Résumé

Dans cet article, nous abordons le problème de l'analyse de données multimodales à travers un cas d'application en reconnaissance d'émotions audiovisuelles. Nous proposons une architecture capable d'apprendre directement à partir de données brutes et décrivons trois variantes de cette architecture, chacune mettant en œuvre un mécanisme distinct de fusion des modalités. Alors que la plupart des travaux antérieurs supposent un scénario idéal où les deux modalités sont toujours présentes pendant l'inférence, nous évaluons la robustesse du modèle dans des conditions non contraintes, où une modalité peut être absente ou bruitée, et proposons une méthode pour atténuer ces limitations sous la forme d’un dropout de modalité. Plus important encore, nous constatons que cette approche améliore non seulement de manière significative les performances en l’absence ou en présence de représentations bruitées d’une modalité, mais améliore également les performances dans un cadre standard idéal, surpassant ainsi les méthodes concurrentes.

Fusion par auto-attention pour la reconnaissance émotionnelle audiovisuelle avec des données incomplètes | Articles de recherche récents | HyperAI