Lila: Ein einheitlicher Benchmark für mathematisches Schlussfolgern

Mathematische Schlussfolgerungsfähigkeiten sind für allgemeinzweckintelligente Systeme essenziell, um Aufgaben von der Lebensmittelbeschaffung bis hin zur Klimamodellierung zu bewältigen. Um den Stand von KI-Systemen in diesem Bereich zu bewerten und zu verbessern, stellen wir LILA vor, eine einheitliche Benchmark für mathematische Schlussfolgerung, die aus 23 unterschiedlichen Aufgaben besteht und sich entlang vier Dimensionen gliedert: (i) mathematische Fähigkeiten, beispielsweise Arithmetik, Analysis; (ii) Sprachformat, beispielsweise Fragen-Antworten, Lückentexte; (iii) sprachliche Vielfalt, beispielsweise keine Sprache, einfache Sprache; (iv) externes Wissen, beispielsweise Alltagswissen, Physik. Wir erstellen unsere Benchmark, indem wir 20 bestehende Datensätze erweitern, indem wir Aufgabenanweisungen und Lösungen in Form von Python-Programmen sammeln, wodurch wir nicht nur korrekte Antworten, sondern auch nachvollziehbare Lösungen erhalten. Zudem führen wir zwei zusätzliche Evaluationsdatensätze ein, um die Leistung außerhalb der Trainingsverteilung und die Robustheit gegenüber sprachlichen Störungen zu messen. Schließlich stellen wir BHASKARA vor, ein allgemeinzweckmathematisches Schlussfolgerungsmodell, das auf LILA trainiert wurde. Wichtig ist, dass Multi-Tasking zu signifikanten Verbesserungen führt (durchschnittliche relative Verbesserung um 21,83 % im F1-Score gegenüber Einzelaufgaben-Modellen), während das bestperformende Modell lediglich 60,40 % erreicht – was deutlich zeigt, dass noch erheblicher Verbesserungsbedarf im Bereich der allgemeinen mathematischen Schlussfolgerung und -verstehens besteht.