13 天前
NL2CMD:面向自然语言到 Bash 命令翻译的更新工作流
Quchen Fu, Zhongwei Teng, Marco Georgaklis, Jules White, Douglas C. Schmidt

摘要
将自然语言转化为 Bash 命令是一项近年来备受关注的新兴研究领域。目前大多数研究工作集中于提升翻译模型的准确性。据我们所知,现有的相关数据集仅有两个,且其中一个基于另一个构建。这两个数据集均通过爬取已知数据源(如 Stack Overflow 平台、众包等方式)获取原始数据,并雇佣专家对英文文本或 Bash 命令进行人工验证与修正。本文在从零开始合成 Bash 命令的研究方面做出两项贡献。首先,我们提出了一种先进的翻译模型,能够根据对应的自然语言描述生成准确的 Bash 命令。其次,我们引入了一个全新的 NL2CMD 数据集,该数据集通过自动化方式生成,人工干预极少,其规模超过先前数据集的六倍以上。由于生成流程不依赖于现有 Bash 命令,因此可灵活调整命令的分布与类型,实现定制化生成。我们评估了 ChatGPT 在该任务上的表现,并探讨了其作为数据生成工具的潜力。实证结果表明,本研究所构建数据集在规模与多样性方面的优势,为语义解析领域的研究人员提供了独特且宝贵的研究机遇。