Efficacité déraisonnable des heuristiques basées sur des règles pour résoudre les tâches Russian SuperGLUE

Les classements tels que SuperGLUE sont considérés comme des incitations essentielles au développement actif du traitement automatique du langage (NLP), car ils offrent des références standard permettant une comparaison équitable des modèles linguistiques modernes. Ils ont mobilisé les meilleures équipes d’ingénierie ainsi que leurs ressources pour collaborer et résoudre un ensemble de tâches visant à évaluer la compréhension générale du langage. Les scores obtenus par ces modèles sont souvent présentés comme étant proches, voire supérieurs, à ceux des humains. Ces résultats ont incité à une analyse plus approfondie de la présence, dans les jeux de données de référence, de signaux statistiques exploitables par les modèles linguistiques fondés sur l’apprentissage automatique. Pour les jeux de données en anglais, il a été démontré qu’ils contiennent fréquemment des artefacts d’annotation, ce qui permet de résoudre certaines tâches à l’aide de règles très simples, tout en obtenant des classements compétitifs.Dans cet article, une analyse similaire a été menée sur le benchmark russe SuperGLUE (RSG), un ensemble de jeux de données et un classement récemment publiés pour l’évaluation de la compréhension du langage en russe. Nous montrons que les jeux de données de test du RSG sont vulnérables aux heuristiques superficielles. En effet, des approches basées sur des règles simples surpassent souvent ou se rapprochent des performances des modèles pré-entraînés célèbres tels que GPT-3 ou BERT. Il est probable (selon l’explication la plus simple) qu’une part importante des performances des modèles d’état de l’art sur le classement RSG s’explique par l’exploitation de ces heuristiques superficielles, et non par une véritable compréhension du langage. Nous proposons un ensemble de recommandations visant à améliorer ces jeux de données, afin que le classement RSG reflète encore mieux les progrès réels accomplis dans le domaine de la compréhension du langage en russe.