12 天前
CoDesc:一个大规模代码-描述并行数据集
Masum Hasan, Tanveer Muttaqueen, Abdullah Al Ishtiaq, Kazi Sajeed Mehrab, Md. Mahim Anjum Haque, Tahmid Hasan, Wasi Uddin Ahmad, Anindya Iqbal, Rifat Shahriyar

摘要
自然语言与源代码之间的翻译能够通过使开发者以自然语言方式理解、构思、检索和编写计算机程序,从而助力软件开发。尽管产业界和研究社区对此日益关注,但该任务仍面临诸多挑战,主要源于缺乏适用于训练深度神经网络模型的大规模标准数据集、标准化的噪声清除方法以及统一的评估基准。这导致研究人员不得不自行收集小规模数据集,进而造成已有研究成果之间存在不一致的问题。在本研究中,我们提出了 CoDesc——一个包含420万条Java方法及其自然语言描述的大型平行数据集。通过深入分析,我们识别并剔除了数据集中普遍存在的噪声模式。我们验证了CoDesc在两类互补任务中的优异表现:代码摘要生成与代码搜索。实验结果表明,该数据集可使代码搜索性能提升最高达22%,并在代码摘要生成任务中达到了新的最先进水平。此外,我们还展示了CoDesc在“预训练—微调”范式中的有效性,为构建面向Java语言的预训练语言模型开辟了新路径。为促进后续研究,我们已将该数据集、数据处理工具及评估基准公开发布于 \url{https://github.com/csebuetnlp/CoDesc}。