ManyTypes4TypeScript: Ein umfassender TypeScript-Datensatz für sequenzbasierte Typinferenz
In diesem Paper stellen wir ManyTypes4TypeScript vor, eine sehr große Korpus-Datenmenge zum Trainieren und Evaluieren von maschinellen Lernmodellen für sequenzbasierte Typinferenz in TypeScript. Das Datenset enthält über 9 Millionen Typannotierungen aus insgesamt 13.953 Projekten und 539.571 Dateien. Es ist etwa zehnmal größer als vergleichbare Datensätze für die Typinferenz in Python und damit das größte verfügbare Datenset für TypeScript. Zudem bieten wir API-Zugriff auf das Datenset an, das in beliebige Tokenizer integriert und mit jeder state-of-the-art sequenzbasierten Modellarchitektur verwendet werden kann. Schließlich präsentieren wir Analysen und Leistungsergebnisse für state-of-the-art code-spezifische Modelle als Baseline. ManyTypes4TypeScript ist auf Hugging Face, Zenodo und CodeXGLUE verfügbar.