4ヶ月前

事前学習された言語モデルを活用したコード生成

{Mayada Hadhoud Samir Shaheen Ahmed Soliman}

要約

コードアシスタンスとは、ソフトウェア開発プロセスにおける開発者の支援を目的として、さまざまなツール、技術およびモデルを活用する概念を指す。近年、コーディングタスクの複雑さが増す中で、コードアシスタントは開発者の生産性向上、エラーの低減、そしてより効率的なコーディングワークフローの実現において中心的な役割を果たしている。この支援は、コードの自動補完、エラーの検出・修正、コード生成、ドキュメント支援、コンテキストに応じた提案など、多様な形で現れる。特に、言語モデルはコードアシスタンスの重要な構成要素として登場し、開発者が知能的な提案を受け、コードスニペットを生成し、全体的なコーディング能力を向上させる可能性を提供している。本論文では、事前学習済みの言語モデルとしてBERT、RoBERTa、ELECTRA、LUKEを、Marian因果言語モデルと組み合わせることで、新たなハイブリッド型コード生成モデルを提案する。これらのモデルは、さまざまな自然言語処理タスクにおいて優れた性能を示す点から選定された。本研究では、CoNaLaおよびDJANGOの2つのデータセットを用いてこれらのモデルの性能を評価し、既存の最先端モデルと比較することで、事前学習済みTransformer型言語モデルがコード生成の分野に革命をもたらす可能性を検証する。さらに、生成コードの誤差分析を行い、モデルの精度と効率を向上させるための改善を試みた。その結果、Marianデコーダーと組み合わせたモデルは、コード生成の精度および効率を顕著に向上させた。特に、RoBERTa-MarianモデルはCoNaLaデータセットにおいて最大のBLEUスコア35.74および正確一致精度13.8%を達成した。一方、LUKE-MarianモデルはDJANGOデータセットにおいてBLEUスコア89.34、正確一致精度78.50%を記録した。本研究の実装コードは、https://github.com/AhmedSSoliman/Leveraging-Pretrained-Language-Models-for-Code-Generation にて公開されている。

ベンチマーク

ベンチマーク	方法論	指標
code-generation-on-conala	ELECTRAMarian	BLEU: 30.18 Exact Match Accuracy: 10.0
code-generation-on-conala	RoBERTaMarian	BLEU: 35.74 Exact Match Accuracy: 13.8
code-generation-on-conala	BERTMarian	BLEU: 32.46 Exact Match Accuracy: 12.40
code-generation-on-conala	LUKEMarian	BLEU: 29.83 Exact Match Accuracy: 7.6
code-generation-on-django	LUKEMarian	Accuracy: 78.50 BLEU Score: 89.34
code-generation-on-django	RoBERTaMarian	Accuracy: 77.95 BLEU Score: 88.91
code-generation-on-django	BERTMarian	Accuracy: 76.68 BLEU Score: 56.55
code-generation-on-django	ELECTRAMarian	Accuracy: 65.32 BLEU Score: 53.02

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング

すぐに使える GPU

最適価格

今すぐ始める

Hyper Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

事前学習された言語モデルを活用したコード生成

{Mayada Hadhoud Samir Shaheen Ahmed Soliman}

要約

ベンチマーク

AI で AI を構築

Hyper Newsletters