LINGOLY: Eine Benchmarke für olympische Sprachrätsel in ressourcenarmen und ausgestorbenen Sprachen

In dieser Arbeit stellen wir den LingOly-Benchmark vor, eine neue Bewertungsmethode für fortgeschrittene Schlussfolgerungsfähigkeiten in großen Sprachmodellen. Mit Hilfe anspruchsvoller Linguistischer Olympiade-Rätsel bewerten wir (i) die Fähigkeiten zur Kontextidentifikation und -generalisierung von sprachlichen Mustern in sehr unterrepräsentierten oder ausgestorbenen Sprachen sowie (ii) die Fähigkeit, komplexe Aufgabenanweisungen zu befolgen. Der LingOly-Benchmark umfasst mehr als 90 hauptsächlich unterrepräsentierte Sprachen, wodurch Probleme der Datenkontamination minimiert werden, und enthält 1.133 Aufgaben in sechs Formaten und fünf Schwierigkeitsstufen für Menschen. Die Leistung wird sowohl anhand der direkten Genauigkeit als auch im Vergleich zu einer Baseline ohne Kontext bewertet, um das Auswendiglernen zu sanktionieren. Die Ergebnisse von 11 aktuellen großen Sprachmodellen zeigen, dass der Benchmark anspruchsvoll ist, und die Modelle bei schwierigeren Aufgaben schlecht abschneiden. Bei den härteren Aufgaben erreichte sogar das beste Modell nur eine Genauigkeit von 38,7 %, was eine Verbesserung von 24,7 % gegenüber der Baseline ohne Kontext darstellt. Große geschlossene Modelle übertreffen in der Regel offene Modelle, und im Allgemeinen sind die Scores desto besser, je mehr Ressourcen die Sprache hat. Diese Ergebnisse deuten darauf hin, dass echte mehrstufige außerdomänen Schlussfolgerungen ohne Auswendiglernen für aktuelle Sprachmodelle weiterhin eine Herausforderung darstellen.