Alibaba à la tâche 1 de IJCNLP-2017 : Intégration de caractéristiques grammaticales dans les LSTMs pour la diagnostic des erreurs grammaticales en chinois

Cet article présente le système développé par l’équipe NLP d’Alibaba pour la tâche partagée No. 1 du IJCNLP 2017, intitulée Diagnostic Grammatical Chinois (CGED). Cette tâche consiste à détecter quatre types d’erreurs grammaticales : mots redondants (R), mots manquants (M), choix de mots inappropriés (S) et mots mal ordonnés (W). Nous traitons cette tâche comme un problème d’étiquetage de séquence et avons conçu plusieurs caractéristiques manuelles pour la résoudre. Notre système repose principalement sur un modèle LSTM-CRF, auquel trois stratégies d’ensemblage sont appliquées afin d’améliorer les performances. À la fois au niveau de la détection et au niveau de la position, notre système obtient les meilleurs scores F1. En particulier, au niveau de la position — qui constitue le niveau le plus difficile — nous obtenons les meilleurs résultats sur l’ensemble des métriques.