AprielGuard登場:80億パラメータの統合型セーフティ・アドバーシャル対策モデルでLLMエージェントのリスクを一元管理
大規模言語モデル(LLM)の進化に伴い、多段階の推論や外部ツールの利用、記憶の保持などを実現するエージェント型システムが登場した。これにより、従来のコンテンツ安全リスクに加え、複数ターンの「 jailbreak 」やプロンプトインジェクション、記憶の改ざん、ツール操作の悪用といった高度な攻撃リスクが顕在化している。こうした課題に対応するため、研究チームは「AprielGuard」と呼ばれる80億パラメータの安全・セキュリティガードレールモデルを発表した。 AprielGuardは、16の安全リスクカテゴリ(差別的表現、誤情報、自傷行為、違法活動など)と、プロンプトインジェクション、チェーン・オブ・シンセシスの改ざん、マルチエージェント攻撃など、多様な攻撃パターンを検出できる。対象は単一のプロンプトだけでなく、複数ターンの会話、エージェントワークフロー(ツール呼び出し、推論履歴、メモリ状態など)まで広がる。モデルは「推論モード」と「非推論モード」の2種類で動作し、説明性の高い分類と生産環境向けの低遅延処理を両立している。 訓練データは合成データで構成されており、Mixtral-8x7Bや内部開発の非制限モデルを用いて、安全性の欠如したコンテンツを生成。攻撃パターンはロールプレイ、世界観構築、説得戦略など多様な手法で設計され、NVIDIA NeMo CuratorやSyGraフレームワークを活用して、現実的で進化的な攻撃シナリオを大規模に生成。さらに、文字レベルのノイズ、スラング変換、並び替えなどのデータ拡張により、実世界の変化に強いモデルを実現。 評価結果では、公開ベンチマークにおいて安全性検出でF1スコア0.98以上、悪意ある攻撃検出でもF1スコア0.95以上を達成。特に32,000トークンまでの長文処理でも、誤検出率を低く抑えながら「針の山の中の針」のような潜在的なリスクを検出可能。多言語対応も実施され、英語以外のフランス語、ドイツ語、日本語、スペイン語など8言語で安定した性能を示した。 ただし、限界も指摘されている。非英語環境での運用には十分な検証が必要であり、専門分野(医療、法律など)では理解が不足する可能性がある。推論モードでは解釈性が向上するが、遅延と計算コストが増加する。また、推論モードと非推論モードで分類結果が不一致になるケースも確認されている。 AprielGuardは、エージェント型AIシステムにおける安全とセキュリティを統合的に管理するための基盤モデルとして、開発チームが「信頼できるAI展開のためのスケーラブルな基盤」と位置付けている。
