Command Palette

Search for a command to run...

2ヶ月前

A.S.E:AI生成コードにおけるセキュリティ評価を目的としたリポジトリレベルのベンチマーク

A.S.E:AI生成コードにおけるセキュリティ評価を目的としたリポジトリレベルのベンチマーク

要約

ソフトウェア工学における大規模言語モデル(LLM)の普及が進む中、生成コードのセキュリティ評価を厳密に行うことが不可欠となっている。しかし、従来のベンチマークは、孤立したコードスニペットに焦点を当てており、再現性に欠ける不安定な評価手法を用いているほか、入力コンテキストの品質と出力のセキュリティとの関連性を捉えていないという課題を抱えている。こうした課題を解決するために、本研究では「A.S.E(AI Code Generation Security Evaluation)」を提案する。A.S.Eは、実際のリポジトリに記録されたCVE(脆弱性)をもとに、リポジトリレベルのセキュアなコード生成を評価するためのベンチマークである。A.S.Eは、ビルドシステムや複数ファイル間の依存関係を含む、完全なリポジトリコンテキストを保持したタスクを構築する。再現性の高いコンテナ化された評価フレームワークを採用し、専門家が定義したルールに基づいて、セキュリティ、ビルド品質、生成の安定性について、安定かつ検証可能な評価を実施する。A.S.Eを用いた主要なLLMの評価から、以下の3つの重要な知見が得られた:(1)Claude-3.7-Sonnetが全体的な性能で最優秀を記録した。(2)プロプライエタリモデルとオープンソースモデルの間のセキュリティギャップは狭く、Qwen3-235B-A22B-Instructが最高のセキュリティスコアを達成した。(3)セキュリティパッチ生成において、簡潔で「迅速な思考」を特徴とするデコード戦略が、複雑で「ゆっくりとした思考」を特徴とする推論戦略を一貫して上回った。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
A.S.E:AI生成コードにおけるセキュリティ評価を目的としたリポジトリレベルのベンチマーク | 論文 | HyperAI超神経