RuCoLA: Russisches Korpus der sprachlichen Akzeptabilität

Die linguistische Akzeptabilität (LA) erregt aufgrund ihrer vielfältigen Anwendungen, wie dem Test des grammatischen Wissens von Sprachmodellen und der Filterung unwahrscheinlicher Texte mit Akzeptabilitätsklassifizierern, die Aufmerksamkeit der Forschergemeinschaft. Dennoch ist der Anwendungsbereich von LA in Sprachen außer Englisch begrenzt, aufgrund des Mangels an hochwertigen Ressourcen. Hierfür stellen wir das russische Korpus der linguistischen Akzeptabilität (RuCoLA) vor, das unter dem etablierten binären LA-Ansatz von Grund auf neu erstellt wurde. RuCoLA besteht aus 9.800 in-domain-Sätzen aus linguistischen Publikationen und 3.600 out-of-domain-Sätzen, die durch generative Modelle erzeugt wurden. Die out-of-domain-Menge wurde erstellt, um die praktische Nutzung der Akzeptabilität zur Verbesserung der Spracherzeugung zu erleichtern. Unser Artikel beschreibt das Datensammlungsprotokoll und präsentiert eine detaillierte Analyse von Akzeptabilitätsklassifikationsversuchen mit einer Reihe von Baseline-Methoden. Insbesondere zeigen wir, dass die am häufigsten verwendeten Sprachmodelle noch immer weit hinter Menschen zurückbleiben, insbesondere bei der Erkennung morphologischer und semantischer Fehler. Wir veröffentlichen RuCoLA, den Code für die Experimente und ein öffentliches Ranking (rucola-benchmark.com), um die linguistische Kompetenz von Sprachmodellen für Russisch zu bewerten.