Analyse des modèles d'embedding de mots contextuels et non contextuels pour la reconnaissance d'entités nommées en hindi avec une application web pour la collecte de données
La reconnaissance d'entités nommées (NER) est le processus qui consiste à analyser une chaîne de caractères et à identifier les noms propres pertinents qu'elle contient. Dans cet article, nous présentons le développement d’un système de NER en hindi, écrit en script devanagari, en utilisant divers modèles d’embeddings. Nous classifions les embeddings en deux catégories : contextuels et non contextuels, et effectuons une comparaison à la fois intra-catégorie et inter-catégorie. Pour les embeddings non contextuels, nous expérimentons avec Word2Vec et FastText ; pour les embeddings contextuels, nous testons BERT et ses variantes, à savoir RoBERTa, ELECTRA, CamemBERT, Distil-BERT et XLM-RoBERTa. Dans le cadre des embeddings non contextuels, nous utilisons cinq algorithmes d’apprentissage automatique : le classifieur Gaussien NB, Adaboost, le classifieur à perceptron multicouche, le classifieur forêt aléatoire et l’arbre de décision, afin de concevoir dix systèmes de NER en hindi, chacun étant entraîné une fois avec FastText et une autre fois avec Word2Vec fourni par Gensim. Ces modèles sont ensuite comparés aux modèles basés sur les Transformers, notamment BERT et ses variantes. Une étude comparative exhaustive est menée sur l’ensemble de ces modèles de NER. Enfin, le meilleur modèle parmi tous est sélectionné, et une application web est développée. Cette application permet d’entrer un texte en hindi de longueur quelconque, d’obtenir les étiquettes de NER pour chaque mot, et de recueillir un retour utilisateur concernant la justesse de ces étiquettes. Ces retours contribuent à enrichir notre collecte de données future.