2달 전

CodeXGLUE: 코드 이해 및 생성을 위한 기계 학습 벤치마크 데이터셋

Lu, Shuai ; Guo, Daya ; Ren, Shuo ; Huang, Junjie ; Svyatkovskiy, Alexey ; Blanco, Ambrosio ; Clement, Colin ; Drain, Dawn ; Jiang, Daxin ; Tang, Duyu ; Li, Ge ; Zhou, Lidong ; Shou, Linjun ; Zhou, Long ; Tufano, Michele ; Gong, Ming ; Zhou, Ming ; Duan, Nan ; Sundaresan, Neel ; Deng, Shao Kun ; Fu, Shengyu ; Liu, Shujie
CodeXGLUE: 코드 이해 및 생성을 위한 기계 학습 벤치마크 데이터셋
초록

벤치마크 데이터셋은 프로그래밍 언어 작업에 대한 연구를 가속화하는 데 중요한 역할을 합니다. 본 논문에서는 프로그램 이해 및 생성을 위한 기계 학습 연구를 촉진하기 위해 CodeXGLUE 벤치마크 데이터셋을 소개합니다. CodeXGLUE는 14개의 데이터셋에 걸쳐 10개의 작업을 포함하고 있으며, 모델 평가 및 비교를 위한 플랫폼을 제공합니다. 또한 CodeXGLUE는 BERT 스타일, GPT 스타일, 그리고 인코더-디코더 모델 등 세 가지 베이스라인 시스템을 특징으로 하여 연구자들이 플랫폼을 쉽게 사용할 수 있도록 설계되었습니다. 이러한 데이터와 베이스라인이 제공됨으로써 새로운 방법론의 개발과 검증이 가능해져 다양한 프로그램 이해 및 생성 문제에 적용될 수 있습니다.

CodeXGLUE: 코드 이해 및 생성을 위한 기계 학습 벤치마크 데이터셋 | 최신 연구 논문 | HyperAI초신경