
要約
暗号化アルゴリズムは現代のセキュリティにおいて基盤的な役割を果たしているが、その実装には検出が困難な微細な論理的欠陥が頻繁に存在する。本研究では、大規模言語モデル(LLM)を活用した自動暗号脆弱性検出を実現する新しいフレームワーク「CryptoScope」を提案する。CryptoScopeは、12,000件以上の項目を収録した厳選された暗号学知識ベースを基盤とし、Chain-of-Thought(CoT)プロンプティングとリトリーバー増強生成(RAG)を統合することで、高精度な脆弱性検出を実現している。本研究では、実際のCVE脆弱性から主に抽出された92件のケースを対象としたベンチマーク「LLM-CLVA」を用いてCryptoScopeの性能を評価した。これに加え、主要なキャプチャ・ザ・フラッグ(CTF)大会の暗号問題および11言語にわたる合成例も併用している。評価結果から、CryptoScopeは強力なLLMベースラインに対して一貫して性能向上を示し、DeepSeek-V3では11.62%、GPT-4o-miniでは20.28%、GLM-4-Flashでは28.69%の向上を達成した。さらに、広く利用されているオープンソース暗号プロジェクトにおいて、これまで未発表だった9件の脆弱性を同定することに成功した。