Unreasonable Effectiveness of Rule-Based Heuristics in Solving Russian SuperGLUE Tasks

Leaderboards wie SuperGLUE gelten als wichtige Anreize für die kontinuierliche Entwicklung im Bereich der natürlichen Sprachverarbeitung (NLP), da sie standardisierte Benchmarks für einen fairen Vergleich moderner Sprachmodelle bieten. Sie haben weltweit führende Ingenieurteams sowie deren Ressourcen dazu motiviert, gemeinsam an der Lösung einer Reihe von Aufgaben für die allgemeine Sprachverstehensfähigkeit zu arbeiten. Die erreichten Leistungswerte werden häufig als nahe an oder sogar über menschlichem Leistungsniveau angesehen. Diese Ergebnisse haben eine eingehendere Analyse angeregt, ob die zugrundeliegenden Benchmark-Datensätze statistische Hinweise enthalten, die maschinelles Lernen-basierte Sprachmodelle ausnutzen können. Für englischsprachige Datensätze wurde gezeigt, dass sie oft Annotationseffekte („annotation artifacts“) aufweisen, die es ermöglichen, bestimmte Aufgaben mit sehr einfachen Regeln zu lösen und dabei dennoch wettbewerbsfähige Platzierungen zu erreichen.In dieser Arbeit wurde eine ähnliche Analyse für das russische SuperGLUE (RSG) durchgeführt, ein kürzlich veröffentlichtes Benchmark-Set und Leaderboard für das russische Sprachverstehen. Wir zeigen, dass die Testdatensätze des RSG anfällig für einfache Heuristiken sind. Oft erreichen Ansätze, die auf einfachen Regeln basieren, Leistungen, die derer von berühmten vortrainierten Sprachmodellen wie GPT-3 oder BERT gleichkommen oder diese sogar übertrifft. Es ist wahrscheinlich (und als einfachste Erklärung am plausibelsten), dass ein erheblicher Teil der Leistung von State-of-the-Art-Modellen im RSG-Leaderboard darauf beruht, diese flachen Heuristiken auszunutzen – und damit nichts mit echtem Sprachverständnis zu tun hat. Wir geben eine Reihe von Empfehlungen zur Verbesserung dieser Datensätze ab, um das RSG-Leaderboard noch repräsentativer für den tatsächlichen Fortschritt im Bereich des russischen NLU zu machen.