
摘要
代码辅助是指在软件开发过程中,利用各类工具、技术与模型来协助开发人员提升工作效率。随着编码任务日益复杂,代码辅助在提升开发者生产力、减少错误以及优化编码流程方面发挥着关键作用。其表现形式多样,涵盖代码自动补全、错误检测与修复、代码生成、文档支持以及上下文感知的智能建议等。近年来,语言模型已成为代码辅助系统的核心组成部分,使开发者能够获得智能化的代码建议、自动生成代码片段,并全面提升编程能力。本文提出了一种新型混合模型,用于代码生成,该模型结合了预训练语言模型BERT、RoBERTa、ELECTRA与LUKE,以及Marian因果语言模型(Marian Causal Language Model)。所选模型均基于其在多种自然语言处理任务中表现出的优异性能。我们在两个公开数据集CoNaLa与DJANGO上对所提模型进行了评估,并与现有最先进模型进行对比。研究旨在探索预训练Transformer语言模型在代码生成领域的潜力,以期在复杂编码场景下实现更高的精度与效率。此外,本文还进行了误差分析,并对生成的代码进行了优化与改进。实验结果表明,当上述模型与Marian解码器结合使用时,显著提升了代码生成的准确率与效率。具体而言,在CoNaLa数据集上,RoBERTa-Marian模型取得了最高BLEU得分为35.74,精确匹配准确率为13.8%;而在DJANGO数据集上,LUKE-Marian模型达到了89.34的BLEU得分与78.50%的精确匹配准确率。本研究的实现代码已开源,可通过以下链接获取:https://github.com/AhmedSSoliman/Leveraging-Pretrained-Language-Models-for-Code-Generation。