2ヶ月前
CodeXGLUE: コード理解と生成のための機械学習ベンチマークデータセット
Lu, Shuai ; Guo, Daya ; Ren, Shuo ; Huang, Junjie ; Svyatkovskiy, Alexey ; Blanco, Ambrosio ; Clement, Colin ; Drain, Dawn ; Jiang, Daxin ; Tang, Duyu ; Li, Ge ; Zhou, Lidong ; Shou, Linjun ; Zhou, Long ; Tufano, Michele ; Gong, Ming ; Zhou, Ming ; Duan, Nan ; Sundaresan, Neel ; Deng, Shao Kun ; Fu, Shengyu ; Liu, Shujie

要約
ベンチマークデータセットは、プログラミング言語タスクに関する研究を加速する上で重要な役割を果たしています。本論文では、プログラム理解と生成のための機械学習研究を促進することを目的としたベンチマークデータセットであるCodeXGLUEを紹介します。CodeXGLUEには、14のデータセットにわたる10のタスクのコレクションと、モデル評価および比較のプラットフォームが含まれています。また、CodeXGLUEはBERTスタイル、GPTスタイル、およびエンコーダー-デコーダーモデル(Encoder-Decoder models)の3つのベースラインシステムも提供しており、研究者がプラットフォームを利用しやすいように設計されています。このようなデータとベースラインの可用性は、さまざまなプログラム理解や生成問題に適用できる新方法の開発と検証に貢献することが期待されます。