Command Palette

Search for a command to run...

HH-RLHF 人間の嗜好データセット

日付

3ヶ月前

サイズ

90.35 MB

組織

人間的

論文URL

2209.07858

ライセンス

MIT

HH-RLHF は、2022 年に Anthropic によってリリースされた人間の嗜好データセットで、主に 2 つの部分で構成されています。

データセットの構成:

  • 有益/無害な人間の嗜好データ(PMデータ):
    • 関連する論文結果は「人間のフィードバックからの強化学習による、役に立つ無害なアシスタントのトレーニングこれは、人間の好みを利用して対話モデルを「有益」かつ「無害」になるように調整することを目的としています。
    • このデータセットは、選択/拒否された応答を含む一対の応答比較サンプルで構成されており、有用性(ベース、拒否サンプル、オンラインソースから)と無害性(ベース)をカバーしています。データ形式はシンプルで分かりやすいため、直接的なSFTは推奨されません。RLHF/DPOトレーニング、報酬モデルの構築、応答品質の比較・評価などのシナリオに適しています。
  • レッドチームの会話データ(PM以外のデータ):
    • 関連する論文結果は「レッドチーム演習:言語モデルを活用した被害軽減:手法、行動のスケーリング、そして教訓」は、攻撃の種類と危害の現れ方を研究し、モデルの有害性を軽減することを目的としています。
    • このデータセットは、レッドチームの会話の完全なトランスクリプトとメタデータ(トランスクリプト、min_harmlessness_score_transcript、モデルタイプ、評価、タスクの説明、タグなど)で構成されています。このデータは実際のレッドチームのプロセスに近く、豊富なアノテーションが付与されています。バイアスモデリングやSFTには使用されませんが、セキュリティアライメント分析、レッドチームアセスメント、ハザードタイプの誘導、ポリシー改善などのシナリオに適しています。

HH-RLHF.torrent
シーディング 1ダウンロード中 0ダウンロード完了 13総ダウンロード数 72
  • HH-RLHF/
    • README.md
      1.98 KB
    • README.txt
      3.96 KB
      • data/
        • HH-RLHF.zip
          90.35 MB

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています