Command Palette
Search for a command to run...
Une étude des représentations N-gramme et d'Embedding pour l'identification de la langue d'origine
{Sowmya Vajjala Sagnik Banerjee}

Résumé
Nous présentons nos expériences menées sur les représentations de caractéristiques basées sur les n-grammes et les embeddings pour l’identification de la langue maternelle (NLI), dans le cadre de la tâche partagée NLI 2017 (équipe : NLI-ISU). Notre système le plus performant sur l’ensemble de test constitué de rédactions écrites a obtenu un F1 macro de 0,8264, fondé sur des caractéristiques de mots unigrammes, bigrammes et trigrammes. Nous avons exploré diverses représentations en n-grammes incluant des unités de mots, de caractères, d’analyses grammaticales (POS) ainsi que des combinaisons mixtes mot-POS. Pour les représentations basées sur les embeddings, nous avons utilisé à la fois des embeddings de mots et des embeddings de documents. Cependant, nos performances ont été relativement faibles avec toutes les représentations par embeddings par rapport aux n-grammes, ce qui pourrait s’expliquer par le fait que les embeddings capturent principalement des similarités sémantiques, alors que les différences linguistiques de première langue (L1) sont davantage d’ordre stylistique.
Benchmarks
| Benchmark | Méthodologie | Métriques |
|---|---|---|
| native-language-identification-on-italki-nli | NLI-ISU | Average F1: 0.5035 |
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.