HyperAIHyperAI

Command Palette

Search for a command to run...

SafeKeyフレームワーク、大規模モデルの安全危険度を9.6%低下させることに成功

Scientists Develop SafeKey Framework to Reduce Dangers of Large Models by 9.6% 研究チームが SafeKey フレームワークを開発し、大規模モデルの危険性を大幅に軽減しました。SafeKey は「キー文」の安全性を高めることで、全体的な応答安全性を向上させます。 まず、研究チームはモデルの以下の二つの安全性を強化しました: 1. キー文の完全なる内容 2. モデルが問いへの理解過程から安全な反応を引き出す能力 为此,团队设计了双通道安全头(Dual-Path Safety Head),在训练阶段为这两个方面分别引入预测头,从而在生成“钥匙句”之前放大隐藏状态内的安全信号,确保后续能够触发“安全反应”的充分准备。 さらに、モデルが「キー文」を生成する際、問いの理解過程に含まれる安全性线索に更加的关注而非被“高扬”的指令所牵制,他们提出了查询遮蔽建模(Query-Mask Modeling)优化目标:任务会掩盖输入问题的所有 token,要求模型仅凭自身对问题的复述与解析来生成“キー文”。 这种新颖的设计巧妙地迫使模型必须“自信”并“利用”自己刚刚形成的、已经携带了安全信号的内部解析,从而极大地增强了安全政策的自主性和稳定性。 (修正後の日本語版) 研究チームは、SafeKey フレームワークを開発し、大規模モデルの安全性を大幅に向上させました。これにより、推論時の危険性が9.6%減少しました。 SafeKey は「キー文」の安全性を強化することで、全体的な応答の安全性を高めるための枠組みです。具体的には、チームが注目した2つの点があります: 1. キー文の完全な内容 2. モデルが問いに対する理解から安全な応答を生成する能力 これを実現するために、「双通道安全頭」(Dual-Path Safety Head)が設計されました。訓練段階でこの2つの側面にそれぞれ予測ヘッドを導入し、「キー文」生成前に隠れた状態内の安全情報が強調されるようにして、安全な応答の生成に備えます。 また、モデルが「キー文」を生成する際に、問いへの理解過程での安全性情報をより多く捉え、不要な命令による影響を受けないようにするために、クエリマスクモデル(Query-Mask Modeling)という目的が設定されました。これは、入力された問いのすべてのトークンを遮蔽し、モデルが自我の理解に基づいて「キー文」を生成するように促す方法です。 このような革新的なアプローチにより、モデルは自己確信を持ちながら、安全情報を取り入れた内部解析を使い、安全な応答の生成を行う能力が大幅に向上しました。

関連リンク

SafeKeyフレームワーク、大規模モデルの安全危険度を9.6%低下させることに成功 | 人気の記事 | HyperAI超神経