Utilisation de l'information du lexique des sentiments à multiples niveaux pour les modèles de séquence neuronaux

Les modèles de séquence neuronaux ont connu un grand succès dans la classification des sentiments au niveau des phrases. Cependant, certains modèles sont particulièrement complexes ou reposent sur des caractéristiques coûteuses. D'autres modèles reconnaissent la valeur des ressources linguistiques existantes mais les utilisent insuffisamment. Cet article propose une nouvelle méthode générale pour intégrer des informations lexicographiques, y compris des lexiques de sentiments (+/-), des mots de négation et des amplificateurs (intensifiers). Les mots sont annotés avec des étiquettes fines et grossières. La méthode proposée encode d'abord les étiquettes fines dans l'embedding de sentiment et les concatène avec l'embedding de mot. Ensuite, les étiquettes grossières sont utilisées pour renforcer le mécanisme d'attention en attribuant un poids important aux mots liés aux sentiments. Les résultats expérimentaux montrent que notre méthode peut améliorer la précision de classification des modèles de séquence neuronaux sur les jeux de données SST-5 et MR. Plus précisément, le modèle Bi-LSTM amélioré peut même rivaliser avec un Tree-LSTM qui utilise des annotations coûteuses au niveau des phrases. Une analyse supplémentaire révèle que, dans la plupart des cas, les ressources lexicographiques peuvent fournir les bonnes annotations. De plus, la méthode proposée est capable de surmonter l'effet des annotations inévitablement erronées.