HH-RLHF 人間の嗜好データセット
※本データセットはオンライン利用に対応しておりますが、ここをクリックしてジャンプしてください。
HH-RLHF は、2022 年に Anthropic によってリリースされた人間の嗜好データセットで、主に 2 つの部分で構成されています。
データセットの構成:
- 有益/無害な人間の嗜好データ(PMデータ):
- 関連する論文結果は「人間のフィードバックからの強化学習による、役に立つ無害なアシスタントのトレーニングこれは、人間の好みを利用して対話モデルを「有益」かつ「無害」になるように調整することを目的としています。
- このデータセットは、選択/拒否された応答を含む一対の応答比較サンプルで構成されており、有用性(ベース、拒否サンプル、オンラインソースから)と無害性(ベース)をカバーしています。データ形式はシンプルで分かりやすいため、直接的なSFTは推奨されません。RLHF/DPOトレーニング、報酬モデルの構築、応答品質の比較・評価などのシナリオに適しています。
- レッドチームの会話データ(PM以外のデータ):
- 関連する論文結果は「レッドチーム演習:言語モデルを活用した被害軽減:手法、行動のスケーリング、そして教訓」は、攻撃の種類と危害の現れ方を研究し、モデルの有害性を軽減することを目的としています。
- このデータセットは、レッドチームの会話の完全なトランスクリプトとメタデータ(トランスクリプト、min_harmlessness_score_transcript、モデルタイプ、評価、タスクの説明、タグなど)で構成されています。このデータは実際のレッドチームのプロセスに近く、豊富なアノテーションが付与されています。バイアスモデリングやSFTには使用されませんが、セキュリティアライメント分析、レッドチームアセスメント、ハザードタイプの誘導、ポリシー改善などのシナリオに適しています。
HH-RLHF.torrent
シーディング 1ダウンロード中 0ダウンロード完了 8総ダウンロード数 32