Évaluation automatique des essais avec des noyaux de chaînes et des plongements de mots

Dans cette étude, nous présentons une approche basée sur la combinaison de noyaux de chaînes et d'embeddings de mots pour le scoring automatique des dissertations. Les noyaux de chaînes capturent la similarité entre les chaînes en comptant les n-grammes de caractères communs, qui constituent un type de caractéristiques à bas niveau mais puissant, démontrant des résultats de pointe dans diverses tâches de classification de texte, telles que l'identification des dialectes arabes ou l'identification de la langue maternelle. À notre connaissance, nous sommes les premiers à appliquer les noyaux de chaînes au scoring automatique des dissertations. Nous sommes également les premiers à les combiner avec une représentation sémantique de haut niveau, à savoir le sac d'embeddings de super-mots (bag-of-super-word-embeddings). Nous rapportons les meilleures performances sur l'ensemble de données du concours Automated Student Assessment Prize, tant dans les configurations intra-domaine que cross-domaine, surpassant ainsi les récentes approches d'apprentissage profond de pointe.