HyperAIHyperAI

Command Palette

Search for a command to run...

名前付けがLLMのコード解析タスクにおける性能に与える影響は何か?

Zhilong Wang Lan Zhang Chen Cao Nanqing Luo Xinzhi Luo Peng Liu

概要

大規模言語モデル(LLM)であるGPTやBERTは、自然言語処理(NLP)のためのものとして提案され、汎用的な言語モデルとして有望な成果を示している。近年、業界の専門家および研究者たちの間で、LLMがプログラム解析タスクへの応用が急速に広がっている。しかし、プログラミング言語と自然言語との間に大きな違いがある。それは、プログラマーは変数、メソッド、関数に対して任意の名前を割り当てられるのに対し、自然言語の執筆者はそうした自由度を持たない点である。直感的に、プログラム内の命名の質は、LLMがプログラム解析タスクにおいて発揮する性能に影響を与えると考えられる。本稿では、命名がコード解析タスクにおけるLLMの性能にどのように影響するかを検討する。具体的には、変数、メソッド、関数の各々に対して意味のないまたは誤解を招くような名前を含むデータセットを構築し、事前に十分に訓練されたモデル(CodeBERT)を用いてこれらのデータセット上でコード解析タスクを実行した。実験の結果、命名がLLMを基盤とするコード解析タスクの性能に顕著な影響を与えることが明らかになった。これは、LLMを用いたコード表現学習が、コード内の明確な命名に大きく依存していることを示している。さらに、GPTを用いた特定のコード解析タスクについてケーススタディを実施し、さらに深い知見を得た。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています