GLUE: Eine Mehrfachaufgaben-Benchmark und Analyseplattform für die Verarbeitung natürlicher Sprache

Damit die Technologie des natürlichen Sprachverstehens (NLU) sowohl praktisch als auch als wissenschaftliches Forschungsobjekt optimal nutzbar ist, muss sie allgemein sein: Sie muss in der Lage sein, Sprache auf eine Weise zu verarbeiten, die nicht ausschließlich für eine bestimmte Aufgabe oder einen bestimmten Datensatz angepasst ist. Im Streben nach diesem Ziel stellen wir das General Language Understanding Evaluation-Benchmark (GLUE) vor, ein Werkzeug zur Bewertung und Analyse der Leistungsfähigkeit von Modellen in einem breiten Spektrum bestehender NLU-Aufgaben. GLUE ist modellagnostisch, fördert aber den Wissensaustausch zwischen Aufgaben, da bestimmte Aufgaben sehr begrenzte Trainingsdaten haben. Wir bieten zudem eine manuell erstellte Diagnose-Suite an, die eine detaillierte linguistische Analyse von NLU-Modellen ermöglicht. Basierend auf aktuellen Methoden des Multi-Task- und Transfer-Learnings bewerten wir Grundlinienmodelle und finden heraus, dass diese nicht sofort erhebliche Verbesserungen gegenüber der aggregierten Leistung eines separaten Modells pro Aufgabe bringen, was darauf hinweist, dass es noch Verbesserungspotenzial bei der Entwicklung allgemeiner und robuster NLU-Systeme gibt.