Command Palette

Search for a command to run...

16日前

良すぎることの悪さ:大規模言語モデルが悪役を演じることに失敗する理由

良すぎることの悪さ:大規模言語モデルが悪役を演じることに失敗する理由

要約

大規模言語モデル(LLM)は、架空のキャラクターの模倣を含む創造的生成のタスクにますます用いられるようになっている。しかし、非協調的で敵対的なキャラクター像を的確に描く能力については、依然として十分に検証されていない。本研究では、現代のLLMにおける安全対応(safety alignment)が、道徳的に曖昧あるいは悪役的な役割を真に再現するというタスクと根本的に矛盾する可能性があると仮説を立てた。この仮説を検証するため、我々は新たなベンチマーク「Moral RolePlay」を提案する。このデータセットは、四段階の道徳的整合性スケールと、厳密な評価に適したバランスの取れたテストセットを特徴としている。最先端のLLMに、道徳的模範から純粋な悪役に至るキャラクターの役割を演じさせた。大規模な評価の結果、キャラクターの道徳性が低下するにつれて、役割再現の忠実度が一貫して単調に低下することが明らかになった。特に、安全対応の原則と直接対立する性質、たとえば「嘘をつく(Deceitful)」や「操作的(Manipulative)」といった特徴を扱う際、モデルは複雑な悪意を表現できず、表面的な攻撃性に置き換える傾向が見られた。さらに、一般的なチャットボットのパフォーマンスは、悪役の役割再現能力を予測するのに不適切であることが示された。特に、安全対応が強く整備されたモデルは、その能力が著しく劣っている。本研究は、この重要な限界について、初めて体系的な証拠を提供し、モデルの安全性と創造的忠実性の間にある本質的な対立を浮き彫りにした。本研究で提示するベンチマークと知見は、より洗練され、文脈に応じた対応方法の開発に道を開くものである。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
良すぎることの悪さ:大規模言語モデルが悪役を演じることに失敗する理由 | 論文 | HyperAI超神経