13日前

自然言語からのコード生成:より少ない事前知識とより多くの単言語データを用いて

Sajad Norouzi, Keyi Tang, Yanshuai Cao
自然言語からのコード生成:より少ない事前知識とより多くの単言語データを用いて
要約

意味解析(semantic parsing)のためのトレーニングデータセットは、他の多くの自然言語処理(NLP)タスクと比べてアノテーションに高度な専門知識が求められるため、通常は規模が小さい。その結果、この用途向けのモデルは、アーキテクチャやアルゴリズムに追加の事前知識(prior knowledge)を組み込む必要がある。この人間の専門家に依存する度合いの高さは、自動化を阻害し、実用上では開発および保守コストの増加を招く。本研究では、コード生成に特化した誘導的バイアス(inductive bias)を最小限に抑えた汎用的なTransformerベースのseq2seqモデルが、競争力ある性能を達成できるかを検証する。対象プログラミング言語の比較的大規模な単言語コーパスを、ウェブから安価に収集・利用することで、Djangoデータセットにおいて81.03%の正確一致(exact match)精度、CoNaLaデータセットにおいて32.57のBLEUスコアを達成した。これらは、現時点における最良の結果(SOTA)である。この肯定的な結果は、実用的な文脈で高精度な意味解析器を構築するための、より容易なアプローチの可能性を示唆している。