HyperAI超神経

HH-RLHF は、2022 年に Anthropic によってリリースされた人間の嗜好データセットで、主に 2 つの部分で構成されています。

データセットの構成:

有益/無害な人間の嗜好データ（PMデータ）:
- 関連する論文結果は「人間のフィードバックからの強化学習による、役に立つ無害なアシスタントのトレーニングこれは、人間の好みを利用して対話モデルを「有益」かつ「無害」になるように調整することを目的としています。
- このデータセットは、選択／拒否された応答を含む一対の応答比較サンプルで構成されており、有用性（ベース、拒否サンプル、オンラインソースから）と無害性（ベース）をカバーしています。データ形式はシンプルで分かりやすいため、直接的なSFTは推奨されません。RLHF/DPOトレーニング、報酬モデルの構築、応答品質の比較・評価などのシナリオに適しています。
レッドチームの会話データ（PM以外のデータ）:
- 関連する論文結果は「レッドチーム演習：言語モデルを活用した被害軽減：手法、行動のスケーリング、そして教訓」は、攻撃の種類と危害の現れ方を研究し、モデルの有害性を軽減することを目的としています。
- このデータセットは、レッドチームの会話の完全なトランスクリプトとメタデータ（トランスクリプト、min_harmlessness_score_transcript、モデルタイプ、評価、タスクの説明、タグなど）で構成されています。このデータは実際のレッドチームのプロセスに近く、豊富なアノテーションが付与されています。バイアスモデリングやSFTには使用されませんが、セキュリティアライメント分析、レッドチームアセスメント、ハザードタイプの誘導、ポリシー改善などのシナリオに適しています。

HH-RLHF 人間の嗜好データセット

データセットの構成:

AI で AI を構築

Hyper Newsletters

Command Palette

HH-RLHF 人間の嗜好データセット

データセットの構成:

AI で AI を構築

Hyper Newsletters