Command Palette
Search for a command to run...
RedPenNet pour la correction d'erreurs grammaticales : sorties en tokens, attentions sur des segments
RedPenNet pour la correction d'erreurs grammaticales : sorties en tokens, attentions sur des segments
Bohdan Didenko Andrii Sameliuk
Résumé
Les tâches d’édition de texte, notamment la fusion de phrases, la séparation de phrases, la reformulation, la simplification de texte et la correction des erreurs grammaticales (GEC), partagent une caractéristique commune : elles traitent des séquences d’entrée et de sortie extrêmement similaires. Ce domaine de recherche se situe à l’intersection de deux champs bien établis : (i) les approches entièrement auto-régressives séquence-à-séquence, couramment utilisées dans des tâches telles que la traduction automatique neuronale (NMT), et (ii) les techniques d’étiquetage de séquence, largement employées pour des tâches comme l’analyse morphosyntaxique (Part-of-speech tagging), la reconnaissance d’entités nommées (NER) et des tâches similaires. Dans la quête d’une architecture équilibrée, les chercheurs ont proposé de nombreuses solutions imaginatives et non conventionnelles, que nous discutons dans la section des travaux connexes. Notre approche pour traiter les tâches d’édition de texte, baptisée RedPenNet, vise à réduire les redondances architecturales et paramétriques présentes dans les modèles spécifiques « Sequence-To-Edits », tout en préservant leurs avantages semi-auto-régressifs. Nos modèles atteignent des scores F0.5 de 77,60 sur le benchmark BEA-2019 (test), ce qui peut être considéré comme l’état de l’art, à l’exception des systèmes combinés, et de 67,71 sur les benchmarks UAGEC+Fluency (test). Cette recherche s’inscrit dans le cadre du atelier UNLP 2023, où elle a été présentée sous forme de communication pour la tâche partagée de correction des erreurs grammaticales (GEC) en langue ukrainienne. Cette étude vise à appliquer l’approche RedPenNet afin de résoudre le problème de GEC dans la langue ukrainienne.