1ヶ月前

言語モデルのレッドチームによる検証による害の低減:手法、スケーリング特性、および得られた教訓

Deep Ganguli, Liane Lovitt, Jackson Kernion, Amanda Askell, Yuntao Bai, et al
言語モデルのレッドチームによる検証による害の低減:手法、スケーリング特性、および得られた教訓
要約

我々は、言語モデルの潜在的な有害な出力を同時に発見し、測定し、可能な限り低減するための初期的な赤チーム(red teaming)試みについて述べる。本研究では、以下の3つの主な貢献を行う。第一に、3種類のモデルサイズ(27億、130億、520億パラメータ)および4種類のモデルタイプ—(1)単純な言語モデル(LM)、(2)有用性、誠実性、無害性を促すプロンプトを用いたLM、(3)拒否サンプリングを採用したLM、(4)人間のフィードバックに基づく強化学習(RLHF)によって有用かつ無害であるように訓練されたモデル—における赤チーム実験のスケーリング特性を調査した。その結果、RLHFモデルはスケーリングに伴いますます赤チーム攻撃に対して耐性を持つことが明らかになった一方で、他のモデルタイプについてはスケーリングに伴う明確なトレンドは見られなかった。第二に、他の研究者が分析・学習に利用できるよう、38,961件の赤チーム攻撃データセットを公開する。我々自身のデータ分析を通じて、攻撃的言語から、暴力的ではないがより微妙な倫理的に問題のある出力まで、多様な有害な出力が確認された。第三に、赤チーム実験における指示の詳細、プロセス、統計的手法、および不確実性に関する包括的な記述を行う。本研究の透明性の向上により、研究コミュニティ全体が協力して、言語モデルの赤チーム実験に関する共通の規範、実践、技術基準の構築を加速することを期待している。