13 天前

阅读 StackOverflow 鼓励作弊:添加问题文本可提升抽取式代码生成

Gabriel Orlanski, Alex Gittens
阅读 StackOverflow 鼓励作弊:添加问题文本可提升抽取式代码生成
摘要

仅凭编程问题的标题来回答该问题具有较大难度,因为关键的上下文信息往往被省略。基于这一观察,我们构建了一个包含超过4万条Stack Overflow问题文本的语料库,该语料库可与CoNaLa数据集(Yin et al., 2018)中对应的问题意图联合使用。通过结合问题意图与问题正文,我们利用BART模型为这一新任务建立了一个基准BLEU得分为34.35。进一步地,通过将挖掘得到的CoNaLa数据与已有标注数据相结合,BLEU得分提升了2.8%,达到35.32。我们在此基础上评估了先前最先进的CoNaLa模型,并发现所提出的结合问题正文与挖掘数据的方法,其BLEU得分相比之前最优模型提升了71.96%。最后,我们进行了消融实验,以验证BART具备无监督多模态学习能力,并深入分析了其文本提取行为。相关代码与数据可在 https://github.com/gabeorlanski/stackoverflow-encourages-cheating 获取。

阅读 StackOverflow 鼓励作弊:添加问题文本可提升抽取式代码生成 | 最新论文 | HyperAI超神经