17일 전
다양한 유형을 위한 타입스크립트: 시퀀스 기반 타입 추론을 위한 종합적인 타입스크립트 데이터셋
{Premkumar T. Devanbu, Kevin Jesse}
초록
이 논문에서는 타입스크립트(Typescript)에서 시퀀스 기반 타입 추론을 위한 기계학습 모델의 학습 및 평가를 위해 사용할 수 있는 매우 큰 데이터셋인 ManyTypes4TypeScript을 제안한다. 이 데이터셋은 13,953개의 프로젝트와 539,571개의 파일에 걸쳐 900만 개 이상의 타입 주석을 포함하고 있다. 이 데이터셋은 파이썬(Python)에 대한 유사한 타입 추론 데이터셋보다 약 10배 크며, 현재까지 공개된 타입스크립트용으로 가장 큰 데이터셋이다. 또한 데이터셋에 대한 API 접근 권한을 제공하여, 다양한 토크나이저와 최신의 시퀀스 기반 모델에 쉽게 통합할 수 있도록 한다. 마지막으로, 기준 모델(베이스라인)을 위한 최신 코드 특화 모델들의 분석 및 성능 결과도 함께 제공한다. ManyTypes4TypeScript는 허깅페이스(Huggingface), 제노도(Zenodo), CodeXGLUE에서 공개되어 있다.