Command Palette
Search for a command to run...
RussianSuperGLUE : Un benchmark d'évaluation de la compréhension du langage russe
RussianSuperGLUE : Un benchmark d'évaluation de la compréhension du langage russe
Tatiana Shavrina Alena Fenogenova Anton Emelyanov Denis Shevelev Ekaterina Artemova Valentin Malykh Vladislav Mikhailov Maria Tikhonova Andrey Chertok Andrey Evlampiev
Résumé
Dans cet article, nous présentons un nouveau benchmark avancé d'évaluation de la compréhension générale du langage russe -- RussianGLUE. Les récentes avancées dans le domaine des modèles de langage universels et des transformateurs nécessitent le développement d'une méthodologie pour leur diagnostic approfondi et leur évaluation en termes de compétences intellectuelles générales, telles que la détection de l'inférence en langage naturel, le raisonnement sur le sens commun et la capacité à effectuer des opérations logiques simples indépendamment du sujet ou du lexique du texte. Pour la première fois, un benchmark composé de neuf tâches, collectées et organisées de manière analogue à la méthodologie SuperGLUE, a été développé de toutes pièces pour la langue russe. Nous fournissons des baselines, une évaluation au niveau humain, un cadre open source pour l'évaluation des modèles (https://github.com/RussianNLP/RussianSuperGLUE) et un classement général des modèles transformateurs pour la langue russe. De plus, nous présentons les premiers résultats comparatifs des modèles multilingues dans l'ensemble de tests diagnostiques adapté et proposons les premières étapes pour une expansion ultérieure ou une évaluation indépendante des modèles les plus récents, sans considération de la langue.