Réseau de fusion multimodal à multiples pertes pour l'analyse d'opinion

Cet article étudie le choix optimal et la fusion des encodeurs de caractéristiques à travers plusieurs modalités, en les combinant au sein d’un seul réseau neuronal afin d’améliorer la détection des sentiments. Nous comparons différentes méthodes de fusion et examinons l’impact de l’entraînement multi-perte au sein du réseau de fusion multimodale, mettant en évidence des résultats surprenants concernant les performances des sous-réseaux. Nous avons également constaté que l’intégration du contexte améliore significativement les performances du modèle. Notre meilleur modèle atteint des performances de pointe sur trois jeux de données (CMU-MOSI, CMU-MOSEI et CH-SIMS). Ces résultats suggèrent une voie claire vers une approche optimisée de sélection et de fusion de caractéristiques pour améliorer la détection des sentiments dans les réseaux neuronaux.