CodeXGLUE: Ein Benchmark-Datensatz für maschinelles Lernen zur Code-Verständnis und -Generierung

Benchmark-Datensätze haben einen erheblichen Einfluss auf die Beschleunigung der Forschung in Aufgaben der Programmiersprachen. In dieser Arbeit stellen wir CodeXGLUE vor, eine Benchmark-Datenbank, die maschinelles Lernen zur Programmanalyse und -generierung fördern soll. CodeXGLUE umfasst eine Sammlung von 10 Aufgaben über 14 Datensätze sowie eine Plattform für die Modellbewertung und -vergleich. Zudem verfügt CodeXGLUE über drei Baseline-Systeme, darunter Modelle im Stil von BERT, GPT und Encoder-Decoder (Baseline-Systeme), um es den Forschern erleichtert zu machen, die Plattform zu nutzen. Die Verfügbarkeit solcher Daten und Baselines kann bei der Entwicklung und Validierung neuer Methoden helfen, die auf verschiedene Probleme der Programmanalyse und -generierung angewendet werden können.