il y a 2 mois

Préformation non supervisée d'un modèle de langage sensible aux frontières pour l'étiquetage de séquences en chinois

Peijie Jiang; Dingkun Long; Yanzhao Zhang; Pengjun Xie; Meishan Zhang; Min Zhang

Résumé

Les informations sur les limites sont cruciales pour diverses tâches de traitement du langage chinois, telles que la segmentation des mots, l'étiquetage morpho-syntaxique et la reconnaissance d'entités nommées. Les études précédentes recouraient généralement à l'utilisation d'un lexique externe de haute qualité, où les entrées du lexique pouvaient fournir des informations de limite explicites. Cependant, pour garantir la qualité du lexique, un important travail humain était toujours nécessaire, ce qui a été généralement négligé. Dans cette étude, nous proposons des informations de limite statistiques non supervisées et présentons une architecture permettant d'intégrer directement ces informations dans des modèles de langage pré-entraînés, aboutissant au modèle Boundary-Aware BERT (BABERT). Nous appliquons BABERT à l'induction de caractéristiques pour les tâches d'étiquetage séquentiel en chinois. Les résultats expérimentaux sur dix benchmarks d'étiquetage séquentiel en chinois montrent que BABERT peut apporter des améliorations cohérentes sur tous les jeux de données. De plus, notre méthode peut compléter les explorations lexicales supervisées précédentes, où des améliorations supplémentaires peuvent être obtenues lorsqu'elle est intégrée aux informations du lexique externe.