HyperAIHyperAI

Command Palette

Search for a command to run...

Préformation non supervisée d'un modèle de langage sensible aux frontières pour l'étiquetage de séquences en chinois

Peijie Jiang Dingkun Long Yanzhao Zhang Pengjun Xie Meishan Zhang Min Zhang

Résumé

Les informations sur les limites sont cruciales pour diverses tâches de traitement du langage chinois, telles que la segmentation des mots, l'étiquetage morpho-syntaxique et la reconnaissance d'entités nommées. Les études précédentes recouraient généralement à l'utilisation d'un lexique externe de haute qualité, où les entrées du lexique pouvaient fournir des informations de limite explicites. Cependant, pour garantir la qualité du lexique, un important travail humain était toujours nécessaire, ce qui a été généralement négligé. Dans cette étude, nous proposons des informations de limite statistiques non supervisées et présentons une architecture permettant d'intégrer directement ces informations dans des modèles de langage pré-entraînés, aboutissant au modèle Boundary-Aware BERT (BABERT). Nous appliquons BABERT à l'induction de caractéristiques pour les tâches d'étiquetage séquentiel en chinois. Les résultats expérimentaux sur dix benchmarks d'étiquetage séquentiel en chinois montrent que BABERT peut apporter des améliorations cohérentes sur tous les jeux de données. De plus, notre méthode peut compléter les explorations lexicales supervisées précédentes, où des améliorations supplémentaires peuvent être obtenues lorsqu'elle est intégrée aux informations du lexique externe.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp