13日前

自然言語からコード生成への外部知識の事前学習を用いた統合

Frank F. Xu, Zhengbao Jiang, Pengcheng Yin, Bogdan Vasilescu, Graham Neubig
自然言語からコード生成への外部知識の事前学習を用いた統合
要約

オープンドメインコード生成は、自然言語(NL)の意図から汎用プログラミング言語(例:Python)によるコードを生成することを目的としています。開発者がコードを書く際にしばしばインターネット上のリソースを参照するという直感に着目し、NLからコードへの生成に外部知識を組み込む有効性を検討しました。具体的には、オンラインプログラミングQAフォーラム「StackOverflow」から自動的に抽出された自然言語とコードのペア、およびプログラミング言語のAPIドキュメントという2種類の外部知識を活用しました。評価の結果、データ拡張とリトリーブベースのデータ再サンプリングを用いてこれら2つの情報源を統合することで、コード生成ベンチマーク「CoNaLa」において、現在の最先端性能を最大2.2%(絶対値)向上させることに成功しました。本研究で使用したコードおよび関連リソースは、https://github.com/neulab/external-knowledge-codegen にて公開されています。

自然言語からコード生成への外部知識の事前学習を用いた統合 | 最新論文 | HyperAI超神経