13 天前

自然语言到代码的生成:更少先验知识与更多单语数据

Sajad Norouzi, Keyi Tang, Yanshuai Cao
自然语言到代码的生成:更少先验知识与更多单语数据
摘要

语义解析任务的训练数据集通常规模较小,原因在于其标注所需的专业知识水平远高于大多数其他自然语言处理任务。因此,此类应用的模型通常需要在架构或算法中引入额外的先验知识。这种对人工专家的高度依赖限制了自动化程度,并在实际应用中显著增加了开发与维护成本。本文探讨了是否可以仅通过少量针对代码生成的归纳偏置设计,便使通用的基于Transformer的序列到序列(seq2seq)模型实现具有竞争力的性能。通过利用从网络中低成本获取的、相对较大的目标编程语言单语语料库,我们在Django数据集上达到了81.03%的精确匹配准确率,在CoNaLa数据集上取得了32.57的BLEU得分,两项结果在目前已知的研究中均达到最先进水平(SOTA)。这一积极结果表明,未来有望通过更简便的路径在实践中构建高精度的语义解析器。

自然语言到代码的生成:更少先验知识与更多单语数据 | 最新论文 | HyperAI超神经