17日前

VulScribeR:LLMを用いたRAGベースの脆弱性拡張の探索

Seyed Shayan Daneshvar, Yu Nong, Xu Yang, Shaowei Wang, Haipeng Cai
VulScribeR:LLMを用いたRAGベースの脆弱性拡張の探索
要約

ソフトウェアセキュリティにおいて脆弱性の検出は極めて重要であるが、深層学習に基づく脆弱性検出器(DLVD)はデータ不足に直面しており、これがその有効性を制限している。データ拡張はこのデータ不足を緩和する可能性を秘めているが、脆弱なコードを拡張することは困難であり、脆弱性を保持しつつ生成可能なソリューションが求められる。従来の研究は、単一の文または特定の種類の脆弱性を含むサンプルの生成に限定していた。近年、大規模言語モデル(LLM)は、検索拡張生成(RAG)と組み合わせることで、さまざまなコード生成および理解タスクにおいて優れた成果を上げており、注目されている。そこで本研究では、精査されたプロンプトテンプレートを活用して脆弱性データセットを拡張する、新たなLLMベースのソリューション「VulScribeR」を提案する。具体的には、単文および複数文の脆弱性の両方を対象に、LLMを用いた3つの戦略——変異(Mutation)、挿入(Injection)、拡張(Extension)——を検討した。4つの脆弱性データセットおよび3種類のDLVDモデルを用いた広範な評価において、本手法はVulgen、VGX、およびランダムオーバーサンプリング(ROS)という2つの最先端手法を、平均5,000件の生成脆弱コードに対してF1スコアでそれぞれ27.48%、27.93%、15.41%上回り、15,000件の生成データでは53.84%、54.10%、69.90%、40.93%の向上を達成した。また、1,000件のサンプルを生成するコストがわずか1.88米ドルという低コストで大規模なデータ拡張が可能であることを示しており、本手法の実用性とスケーラビリティの高さが実証された。

VulScribeR:LLMを用いたRAGベースの脆弱性拡張の探索 | 最新論文 | HyperAI超神経