HyperAIHyperAI

Command Palette

Search for a command to run...

自然言語からのコード生成:より少ない事前知識とより多くの単言語データを用いて

Sajad Norouzi Keyi Tang Yanshuai Cao

概要

意味解析(semantic parsing)のためのトレーニングデータセットは、他の多くの自然言語処理(NLP)タスクと比べてアノテーションに高度な専門知識が求められるため、通常は規模が小さい。その結果、この用途向けのモデルは、アーキテクチャやアルゴリズムに追加の事前知識(prior knowledge)を組み込む必要がある。この人間の専門家に依存する度合いの高さは、自動化を阻害し、実用上では開発および保守コストの増加を招く。本研究では、コード生成に特化した誘導的バイアス(inductive bias)を最小限に抑えた汎用的なTransformerベースのseq2seqモデルが、競争力ある性能を達成できるかを検証する。対象プログラミング言語の比較的大規模な単言語コーパスを、ウェブから安価に収集・利用することで、Djangoデータセットにおいて81.03%の正確一致(exact match)精度、CoNaLaデータセットにおいて32.57のBLEUスコアを達成した。これらは、現時点における最良の結果(SOTA)である。この肯定的な結果は、実用的な文脈で高精度な意味解析器を構築するための、より容易なアプローチの可能性を示唆している。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
自然言語からのコード生成:より少ない事前知識とより多くの単言語データを用いて | 記事 | HyperAI超神経