HyperAIHyperAI

Command Palette

Search for a command to run...

阅读 StackOverflow 鼓励作弊:添加问题文本可提升抽取式代码生成

Gabriel Orlanski Alex Gittens

摘要

仅凭编程问题的标题来回答该问题具有较大难度,因为关键的上下文信息往往被省略。基于这一观察,我们构建了一个包含超过4万条Stack Overflow问题文本的语料库,该语料库可与CoNaLa数据集(Yin et al., 2018)中对应的问题意图联合使用。通过结合问题意图与问题正文,我们利用BART模型为这一新任务建立了一个基准BLEU得分为34.35。进一步地,通过将挖掘得到的CoNaLa数据与已有标注数据相结合,BLEU得分提升了2.8%,达到35.32。我们在此基础上评估了先前最先进的CoNaLa模型,并发现所提出的结合问题正文与挖掘数据的方法,其BLEU得分相比之前最优模型提升了71.96%。最后,我们进行了消融实验,以验证BART具备无监督多模态学习能力,并深入分析了其文本提取行为。相关代码与数据可在 https://github.com/gabeorlanski/stackoverflow-encourages-cheating 获取。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供