2 个月前
CodeXGLUE:用于代码理解和生成的机器学习基准数据集
Lu, Shuai ; Guo, Daya ; Ren, Shuo ; Huang, Junjie ; Svyatkovskiy, Alexey ; Blanco, Ambrosio ; Clement, Colin ; Drain, Dawn ; Jiang, Daxin ; Tang, Duyu ; Li, Ge ; Zhou, Lidong ; Shou, Linjun ; Zhou, Long ; Tufano, Michele ; Gong, Ming ; Zhou, Ming ; Duan, Nan ; Sundaresan, Neel ; Deng, Shao Kun ; Fu, Shengyu ; Liu, Shujie

摘要
基准数据集对加速编程语言任务的研究具有重要意义。本文介绍了CodeXGLUE,这是一个旨在促进程序理解和生成领域机器学习研究的基准数据集。CodeXGLUE 包含了14个数据集中10项任务的集合,以及一个用于模型评估和比较的平台。CodeXGLUE 还提供了三种基线系统,包括BERT风格、GPT风格和编码器-解码器模型,以便研究人员能够方便地使用该平台。这些数据和基线系统的可用性有助于新方法的开发和验证,这些新方法可以应用于各种程序理解和生成问题。