17日前
大規模言語モデルの微調整による脆弱性検出
Alexey Shestov, Rodion Levichev, Ravil Mussabayev, Evgeny Maslov, Anton Cheshkov, Pavel Zadorozhny

要約
本稿では、ソースコードにおける脆弱性検出というタスクに対して大規模言語モデル(LLM)のファインチューニングの結果を報告する。我々は、最新の状態を反映するLLMであるStarCoderの改良版であるWizardCoderを活用し、さらなるファインチューニングを通じて脆弱性検出に適応させる。訓練の高速化を図るため、WizardCoderの学習プロセスを改変するとともに、最適な学習戦略の検討を行った。正例が極めて少ない一方で負例が多数存在する不均衡なデータセットに対しては、分類性能の向上を図るためのさまざまな手法を検討した。ファインチューニングされたWizardCoderモデルは、CodeBERT系モデルと比較して、バランス型および不均衡型の脆弱性データセットにおいてROC AUCおよびF1スコアの向上を達成し、事前学習済みLLMをソースコードの脆弱性検出に適応させる有効性を示している。主な貢献は以下の通りである:最先端のコード専用LLMであるWizardCoderのファインチューニング、性能の低下を伴わずに学習速度の向上、学習プロセスおよび学習戦略の最適化、クラス不均衡の対処、難易度の高い脆弱性検出データセットにおける性能向上。これらの結果は、大規模事前学習言語モデルを微調整することで、特定のソースコード解析タスクに転移学習を実現する可能性を示している。