HyperAIHyperAI
il y a 2 mois

Glyce : Vecteurs glyphe pour les représentations de caractères chinois

Yuxian Meng; Wei Wu; Fei Wang; Xiaoya Li; Ping Nie; Fan Yin; Muyu Li; Qinghong Han; Xiaofei Sun; Jiwei Li
Glyce : Vecteurs glyphe pour les représentations de caractères chinois
Résumé

Il est intuitif que les tâches de traitement du langage naturel (NLP) pour les langues logographiques comme le chinois devraient bénéficier de l'utilisation des informations glyptiques de ces langues. Cependant, en raison du manque d'éléments pictographiques riches dans les glyptes et de la faible capacité de généralisation des modèles standards de vision par ordinateur sur les données de caractères, une méthode efficace pour exploiter ces informations reste à découvrir. Dans cet article, nous comblons cette lacune en présentant Glyce, les vecteurs-glyphes pour la représentation des caractères chinois. Nous apportons trois innovations majeures : (1) Nous utilisons des écritures chinoises historiques (par exemple, l'écriture sur bronze, l'écriture seal, le chinois traditionnel, etc.) pour enrichir les éléments pictographiques dans les caractères ; (2) Nous concevons des structures de CNN (appelées tianzege-CNN) adaptées au traitement d'images de caractères chinois ; et (3) Nous utilisons la classification d'images comme tâche auxiliaire dans un cadre d'apprentissage multitâche pour augmenter la capacité du modèle à généraliser. Nous montrons que les modèles basés sur les glyptes sont capables de surpasser constamment les modèles basés sur les IDs de mots/caractères dans une large gamme de tâches NLP en chinois. Nous sommes en mesure d'établir de nouveaux résultats d'état de l'art pour diverses tâches NLP en chinois, y compris l'étiquetage (NER, CWS, POS), la classification de paires de phrases, la classification de phrases uniques, l'analyse syntaxique dépendante et l'étiquetage des rôles sémantiques. Par exemple, le modèle proposé obtient un score F1 de 80,6 sur le jeu de données OntoNotes pour le NER (+1,5 par rapport à BERT) ; il atteint une précision presque parfaite de 99,8 % sur le corpus Fudan pour la classification textuelle. Le code est disponible à l'adresse suivante : https://github.com/ShannonAI/glyce.

Glyce : Vecteurs glyphe pour les représentations de caractères chinois | Articles de recherche récents | HyperAI