HyperAIHyperAI

Command Palette

Search for a command to run...

Une étude des représentations N-gramme et d'Embedding pour l'identification de la langue d'origine

Sowmya Vajjala Sagnik Banerjee

Résumé

Nous présentons nos expériences menées sur les représentations de caractéristiques basées sur les n-grammes et les embeddings pour l’identification de la langue maternelle (NLI), dans le cadre de la tâche partagée NLI 2017 (équipe : NLI-ISU). Notre système le plus performant sur l’ensemble de test constitué de rédactions écrites a obtenu un F1 macro de 0,8264, fondé sur des caractéristiques de mots unigrammes, bigrammes et trigrammes. Nous avons exploré diverses représentations en n-grammes incluant des unités de mots, de caractères, d’analyses grammaticales (POS) ainsi que des combinaisons mixtes mot-POS. Pour les représentations basées sur les embeddings, nous avons utilisé à la fois des embeddings de mots et des embeddings de documents. Cependant, nos performances ont été relativement faibles avec toutes les représentations par embeddings par rapport aux n-grammes, ce qui pourrait s’expliquer par le fait que les embeddings capturent principalement des similarités sémantiques, alors que les différences linguistiques de première langue (L1) sont davantage d’ordre stylistique.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Une étude des représentations N-gramme et d'Embedding pour l'identification de la langue d'origine | Articles | HyperAI