RuCoLA : Corpus russe d’acceptabilité linguistique

L'acceptabilité linguistique (LA) attire l'attention de la communauté scientifique en raison de ses nombreuses applications, notamment pour tester les connaissances grammaticales des modèles de langage et filtrer les textes peu plausibles à l'aide de classifieurs d'acceptabilité. Cependant, l'application de la LA dans des langues autres que l'anglais est limitée en raison du manque de ressources de haute qualité. Afin d'y remédier, nous présentons le Corpus Russe d'Acceptabilité Linguistique (RuCoLA), construit selon une approche binaire bien établie de l'acceptabilité linguistique. RuCoLA se compose de 9 800 phrases intra-domaine issues de publications linguistiques et de 3 600 phrases extra-domaine générées par des modèles génératifs. L'ensemble extra-domaine est créé pour faciliter l'utilisation pratique de l'acceptabilité afin d'améliorer la génération de langage. Notre article décrit le protocole de collecte des données et présente une analyse détaillée des expériences de classification d'acceptabilité réalisées avec diverses approches basiques. En particulier, nous montrons que les modèles de langage les plus largement utilisés sont encore loin derrière les humains, surtout lorsqu'il s'agit de détecter les erreurs morphologiques et sémantiques. Nous mettons à disposition RuCoLA, le code des expériences et un classement public (rucola-benchmark.com) pour évaluer la compétence linguistique des modèles de langage en russe.