13日前
NL2CMD:自然言語からBashコマンドへの翻訳を更新したワークフロー
Quchen Fu, Zhongwei Teng, Marco Georgaklis, Jules White, Douglas C. Schmidt

要約
自然言語をBashコマンドに翻訳する研究は、近年注目を集めつつある分野である。これまでの多数の研究は、より高精度な翻訳モデルの開発に注力してきた。現時点での知見によれば、利用可能なデータセットはわずか2つであり、一方は他方を基に構築されている。これらのデータセットは、Stack Overflowやクラウドソーシングなどの既存データソースからスクレイピングを行い、専門家を雇って英語テキストまたはBashコマンドの検証・修正を行っている。本稿では、Bashコマンドを完全に新規に合成する研究に向け、2つの貢献を提供する。第一に、対応する英語テキストからBashコマンドを生成する最先端の翻訳モデルを提示する。第二に、人為的介入を最小限に抑え、かつ従来のデータセットの6倍以上に相当する規模を持つ、自動生成された新しいNL2CMDデータセットを紹介する。生成パイプラインは既存のBashコマンドに依存しないため、コマンドの分布や種類をカスタマイズ可能である。また、ChatGPTがこのタスクにおいてどのように性能を発揮するかを評価し、そのデータ生成ツールとしての可能性について考察する。実証的な結果から、本データセットの規模と多様性が意味解析(semantic parsing)研究者にとって新たな機会を提供していることが明らかになった。