
大規模な言語モデル(LLMs)は、次単語予測の目的関数に基づく最適化によって、多様なタスクにわたる強力な能力を発揮し、世界中を席巻している。こうしたモデルが持つ特性や内部に埋め込まれた知識の増大に伴い、有害な出力を生成するリスクが高まり、一般公開向けの大規模な展開には不適切な状況が生じている。本研究では、赤チーム(red-teaming)を実施する新たな安全性評価ベンチマーク「RED-EVAL」を提案する。我々は、広く展開されているモデルであっても、「発話系列ベースのプロンプティング(Chain of Utterances-based, CoU)」によって脆弱であることを示した。この手法を用いることで、GPT-4やChatGPTといった閉鎖型LLMシステムが、65%以上、73%以上の有害な質問に対して倫理的に不適切な応答を生成する可能性があることが明らかになった。さらに、RED-EVALは8種類のオープンソースLLMにおいて、赤チーム攻撃の86%以上で有害な応答を一貫して生成することを実証した。次に、LLMの安全性の整合性を図るための新アプローチ「RED-INSTRUCT」を提案する。このアプローチは2段階構成である。1)HARMFULQAデータ収集:CoUプロンプティングを活用し、幅広いトピックをカバーする1,900件の有害な質問、ChatGPTからの9,500件の安全な会話、7,300件の有害な会話を含むデータセットを収集した。2)SAFE-ALIGN:会話データセットを用いて、有益な応答の負の対数尤度を最小化し、有害な応答に対してはサンプル損失を勾配上昇(gradient accent)によりペナルティを与えることで、LLMの安全性を向上させる手法を示した。本研究で微調整したモデル「STARLING」(Vicuna-7Bを基盤とする)は、RED-EVALおよびHHHベンチマークにおいて、ベースラインモデル(TruthfulQA、MMLU、BBH)の有用性を維持しつつ、より高い安全性の整合性を示した。