13日前

事前学習された言語モデルを活用したコード生成

{Mayada Hadhoud, Samir Shaheen, Ahmed Soliman}
事前学習された言語モデルを活用したコード生成
要約

コードアシスタンスとは、ソフトウェア開発プロセスにおける開発者の支援を目的として、さまざまなツール、技術およびモデルを活用する概念を指す。近年、コーディングタスクの複雑さが増す中で、コードアシスタントは開発者の生産性向上、エラーの低減、そしてより効率的なコーディングワークフローの実現において中心的な役割を果たしている。この支援は、コードの自動補完、エラーの検出・修正、コード生成、ドキュメント支援、コンテキストに応じた提案など、多様な形で現れる。特に、言語モデルはコードアシスタンスの重要な構成要素として登場し、開発者が知能的な提案を受け、コードスニペットを生成し、全体的なコーディング能力を向上させる可能性を提供している。本論文では、事前学習済みの言語モデルとしてBERT、RoBERTa、ELECTRA、LUKEを、Marian因果言語モデルと組み合わせることで、新たなハイブリッド型コード生成モデルを提案する。これらのモデルは、さまざまな自然言語処理タスクにおいて優れた性能を示す点から選定された。本研究では、CoNaLaおよびDJANGOの2つのデータセットを用いてこれらのモデルの性能を評価し、既存の最先端モデルと比較することで、事前学習済みTransformer型言語モデルがコード生成の分野に革命をもたらす可能性を検証する。さらに、生成コードの誤差分析を行い、モデルの精度と効率を向上させるための改善を試みた。その結果、Marianデコーダーと組み合わせたモデルは、コード生成の精度および効率を顕著に向上させた。特に、RoBERTa-MarianモデルはCoNaLaデータセットにおいて最大のBLEUスコア35.74および正確一致精度13.8%を達成した。一方、LUKE-MarianモデルはDJANGOデータセットにおいてBLEUスコア89.34、正確一致精度78.50%を記録した。本研究の実装コードは、https://github.com/AhmedSSoliman/Leveraging-Pretrained-Language-Models-for-Code-Generation にて公開されている。

事前学習された言語モデルを活用したコード生成 | 最新論文 | HyperAI超神経