
要約
最近の大規模言語モデル(Large Language Models: LLMs)の進歩と、それらがコード生成タスクでの利用によって、ソフトウェア開発分野は大きく変貌を遂げています。主流のプログラミング言語におけるコード補完ソリューションの著しい効果にもかかわらず、OpenAPI定義などのあまり普及していないフォーマットへの適用では性能が低下します。本研究では、一般的な商用コード補完ツールであるGitHub CopilotのOpenAPI補完性能を評価し、MetaのオープンソースモデルCode Llamaを活用したタスク固有の最適化手法を提案しています。本研究で提案された意味論に基づくOpenAPI補完ベンチマークを使用して、プロンプトエンジニアリングや微調整技術がCode Llamaモデルの性能に与える影響を一連の実験を通じて分析しました。微調整されたCode Llamaモデルは、商用ソリューションの基盤となるCodexモデルよりも25倍少ないパラメータを使用しながら、GitHub Copilotに対して最大55.2%の正解率向上を達成しました。さらに、本研究では広く使用されているコードインフィリング訓練手法の改良を提案しており、訓練時に使用されるコンテキストサイズより小さいコンテキストサイズでモデルにプロンプトを与えた場合の低性能問題に対処しています。データセット、ベンチマーク、およびモデル微調整コードは公開されています。