2 个月前
CodeBERT:一种面向编程语言和自然语言的预训练模型
Feng, Zhangyin ; Guo, Daya ; Tang, Duyu ; Duan, Nan ; Feng, Xiaocheng ; Gong, Ming ; Shou, Linjun ; Qin, Bing ; Liu, Ting ; Jiang, Daxin ; Zhou, Ming

摘要
我们介绍了CodeBERT,这是一种用于编程语言(PL)和自然语言(NL)的双模态预训练模型。CodeBERT学习通用表示,支持下游的NL-PL应用,如自然语言代码搜索、代码文档生成等。我们使用基于Transformer的神经架构开发了CodeBERT,并通过混合目标函数对其进行训练,该目标函数包括替换标记检测的预训练任务,即检测从生成器中采样的合理替代项。这使我们能够同时利用NL-PL对的双模态数据和单模态数据,前者为模型训练提供输入标记,后者有助于学习更好的生成器。我们在两个NL-PL应用上通过微调模型参数来评估CodeBERT。结果显示,CodeBERT在这两项自然语言代码搜索和代码文档生成任务上均达到了最先进的性能。此外,为了探究CodeBERT所学到的知识类型,我们构建了一个用于NL-PL探测的数据集,并在零样本设置下进行评估,其中预训练模型的参数保持固定。结果表明,CodeBERT在NL-PL探测方面优于之前的预训练模型。