HyperAIHyperAI
il y a 12 jours

L'approche NLP Farsi de CMU METAL

{Mehdi Manshadi, Weston Feely, Lori Levin, Robert Frederking}
Résumé

Bien que de nombreux outils de haute qualité soient disponibles pour l’analyse des langues majeures telles que l’anglais, il est beaucoup plus difficile d’obtenir et d’intégrer des outils gratuits équivalents pour des langues importantes mais à faible ressource, comme le persan. Nous rapportons ici une interface d’analyse précise et efficace pour le persan, que nous avons conçue et mise en œuvre, et qui pourrait s’avérer utile à d’autres chercheurs souhaitant travailler sur le texte persan écrit. Les composants et ressources préexistants que nous avons intégrés incluent le TurboParser et le TurboTagger de l’Université Carnegie Mellon (Martins et al., 2010), entraînés sur le Dadegan Treebank (Rasooli et al., 2013), le normalisateur de texte persan de l’Université d’Uppsala, PrePer (Seraji, 2013), le tokeniseur persan d’Uppsala (Seraji et al., 2012a), ainsi que PerStem, développé par Jon Dehdari (Jadidinejad et al., 2010). L’ensemble de ces outils (combiné à des modules supplémentaires de normalisation et de tokenisation que nous avons développés et rendus accessibles) atteint un score de dépendance de 89,49 % en attachment étiqueté, 92,19 % en attachment non étiqueté et 91,38 % en précision des étiquettes sur un jeu de test de parsing indépendant. Tous les composants et ressources utilisés sont librement disponibles. En plus de décrire ces éléments, nous expliquons également la justification de nos choix.

L'approche NLP Farsi de CMU METAL | Articles de recherche récents | HyperAI