HyperAIHyperAI

Command Palette

Search for a command to run...

Fusion par auto-attention pour la reconnaissance émotionnelle audiovisuelle avec des données incomplètes

Kateryna Chumachenko Alexandros Iosifidis Moncef Gabbouj

Résumé

Dans cet article, nous abordons le problème de l'analyse de données multimodales à travers un cas d'application en reconnaissance d'émotions audiovisuelles. Nous proposons une architecture capable d'apprendre directement à partir de données brutes et décrivons trois variantes de cette architecture, chacune mettant en œuvre un mécanisme distinct de fusion des modalités. Alors que la plupart des travaux antérieurs supposent un scénario idéal où les deux modalités sont toujours présentes pendant l'inférence, nous évaluons la robustesse du modèle dans des conditions non contraintes, où une modalité peut être absente ou bruitée, et proposons une méthode pour atténuer ces limitations sous la forme d’un dropout de modalité. Plus important encore, nous constatons que cette approche améliore non seulement de manière significative les performances en l’absence ou en présence de représentations bruitées d’une modalité, mais améliore également les performances dans un cadre standard idéal, surpassant ainsi les méthodes concurrentes.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp