il y a 16 jours

GPT-3.5 pour la correction d'erreurs grammaticales

Anisia Katinskaia, Roman Yangarber

Résumé

Cette étude explore l'application de GPT-3.5 à la correction d'erreurs grammaticales (GEC) dans plusieurs langues, dans diverses configurations : GEC en zero-shot, fine-tuning pour la GEC, et utilisation de GPT-3.5 pour ré-évaluer les hypothèses de correction produites par d'autres modèles de GEC. Dans le cadre du zero-shot, nous menons des évaluations automatiques des corrections proposées par GPT-3.5 à l'aide de plusieurs méthodes : estimation de la grammaticalité à l’aide de modèles de langage (LM), test de Scribendi, et comparaison des embeddings sémantiques des phrases. GPT-3.5 présente une tendance bien connue à sur-corrigé les phrases erronées et à proposer des corrections alternatives. Pour plusieurs langues — telles que le tchèque, l’allemand, le russe, l’espagnol et l’ukrainien — GPT-3.5 modifie de manière significative les phrases sources, y compris leur sémantique, ce qui pose des défis importants pour l’évaluation à l’aide de métriques basées sur des références. En revanche, pour l’anglais, GPT-3.5 affiche une très bonne rappel, produit des corrections fluides et préserve généralement la sémantique des phrases. Toutefois, les évaluations humaines menées pour l’anglais et le russe révèlent que, malgré ses solides capacités de détection d’erreurs, GPT-3.5 éprouve des difficultés avec plusieurs types d’erreurs, notamment les fautes de ponctuation, les erreurs de temps verbal, les dépendances syntaxiques entre mots, ainsi que la compatibilité lexicale au niveau de la phrase.