HyperAIHyperAI

Command Palette

Search for a command to run...

Ensemble et distillation de connaissances de grands taggeurs de séquences pour la correction d'erreurs grammaticales

Maksym Tarnavskyi Artem Chernodub Kostiantyn Omelianchuk

Résumé

Dans cet article, nous étudions des améliorations apportées à l’architecture de balisage de séquences pour la correction grammaticale (GEC), en mettant l’accent sur l’ensemblage d’encodeurs récents basés sur Transformer, de grande taille. Nous encourageons l’ensemblage des modèles par vote majoritaire au niveau des segments, car cette approche est tolérante vis-à-vis de l’architecture du modèle et de la taille du vocabulaire. Notre meilleur ensemble atteint un nouveau résultat SOTA, avec un score F0.5F_{0.5}F0.5 de 76,05 sur BEA-2019 (test), même sans pré-entraînement sur des jeux de données synthétiques. En outre, nous réalisons une distillation de connaissances à partir d’un ensemble entraîné afin de générer de nouveaux jeux de données d’entraînement synthétiques, nommés « Troy-Blogs » et « Troy-1BW ». Notre meilleur modèle unique de balisage de séquences, pré-entraîné sur les jeux de données Troy ainsi que sur le jeu de données synthétique PIE disponible publiquement, atteint un résultat proche du SOTA (selon nos connaissances, seul un modèle T5 bien plus lourd obtient un meilleur score F0.5F_{0.5}F0.5 de 73,21 sur BEA-2019 (test)). Le code, les jeux de données et les modèles entraînés sont disponibles publiquement.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp