@misc{wang2024helpsteer2preferencecomplementingratingspreferences, title={HelpSteer2-Preference: Complementing Ratings with Preferences}, author={Zhilin Wang and Alexander Bukharin and Olivier Delalleau and Daniel Egert and Gerald Shen and Jiaqi Zeng and Oleksii Kuchaiev and Yi Dong}, year={2024}, eprint={2410.01257}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2410.01257}, } @misc{wang2024helpsteer2, title={HelpSteer2: Open-source dataset for training top-performing reward models}, author={Zhilin Wang and Yi Dong and Olivier Delalleau and Jiaqi Zeng and Gerald Shen and Daniel Egert and Jimmy J. Zhang and Makesh Narsimhan Sreedhar and Oleksii Kuchaiev}, year={2024}, eprint={2406.08673}, archivePrefix={arXiv}, primaryClass={id='cs.CL' full_name='Computation and Language' is_active=True alt_name='cmp-lg' in_archive='cs' is_general=False description='Covers natural language processing. Roughly includes material in ACM Subject Class I.2.7. Note that work on artificial languages (programming languages, logics, formal systems) that does not explicitly address natural-language issues broadly construed (natural-language processing, computational linguistics, speech, text retrieval, etc.) is not appropriate for this area.'} }

日付

2年前

サイズ

38.74 MB

データセット構成

Paper URL

huggingface.co

ライセンス

CC BY 4.0

タグ

※本データセットはオンライン利用に対応しておりますが、ここをクリックしてジャンプしてください。

HelpSteer2 は、NVIDIA と Scale AI が 2024 年に共同で作成したオープンソースデータセットです。これは、人間の好みに合わせて高品質な回答を生成するように大規模言語モデル (LLM) をガイドできる報酬モデルをトレーニングするように設計されています。」HelpSteer2: 最高のパフォーマンスの報酬モデルをトレーニングするためのオープンソースデータセット”。これは HelpSteer データセットに基づいており、現在のより強力な LLM に適応するように更新されています。 HelpSteer2 には約 1 万組の応答が含まれており、既存の嗜好データセットよりも一桁小さいにもかかわらず、報酬モデルのトレーニングに非常に効率的です。このデータセットの収集プロセスには、ShareGPT プラットフォームからプロンプトを取得し、社内の強力な基礎モデルを使用して回答を生成することが含まれます。注釈の品質を向上させるために、回答の注釈プロセスでは、各回答に注釈を付けるために少なくとも 3 人のアノテーターが必要です。 HelpSteer2 の統計によると、模範解答は HelpSteer データセットと比較して、有用性、正確性、一貫性、複雑さ、冗長性の点で高いスコアを獲得しています。 HelpSteer2 データセットは、報酬モデルのトレーニングに非常に効果的です。たとえば、HelpSteer2 でトレーニングされた Llama 3 70B モデルは、メインの Reward-Bench データセットで 92.0% のスコアを達成し、2024 年 6 月 12 日の時点でリストされているすべての公開モデルおよび独自モデルを上回りました。さらに研究チームは、報酬モデルによって予測される豊富な多属性評価を効果的に活用できるSteerLM 2.0モデルアライメント手法も提案しました。

引用

@misc{wang2024helpsteer2preferencecomplementingratingspreferences,
title={HelpSteer2-Preference: Complementing Ratings with Preferences},
author={Zhilin Wang and Alexander Bukharin and Olivier Delalleau and Daniel Egert and Gerald Shen and Jiaqi Zeng and Oleksii Kuchaiev and Yi Dong},
year={2024},
eprint={2410.01257},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2410.01257},
}
@misc{wang2024helpsteer2,
title={HelpSteer2: Open-source dataset for training top-performing reward models},
author={Zhilin Wang and Yi Dong and Olivier Delalleau and Jiaqi Zeng and Gerald Shen and Daniel Egert and Jimmy J. Zhang and Makesh Narsimhan Sreedhar and Oleksii Kuchaiev},
year={2024},
eprint={2406.08673},
archivePrefix={arXiv},
primaryClass={id='cs.CL' full_name='Computation and Language' is_active=True alt_name='cmp-lg' in_archive='cs' is_general=False description='Covers natural language processing. Roughly includes material in ACM Subject Class I.2.7. Note that work on artificial languages (programming languages, logics, formal systems) that does not explicitly address natural-language issues broadly construed (natural-language processing, computational linguistics, speech, text retrieval, etc.) is not appropriate for this area.'}
}

HelpSteer2.torrent

シーディング 1ダウンロード中 0完了 227総ダウンロード数 453

HelpSteer2/
- README.md
  2.08 KB
- README.txt
  4.15 KB

このデータセットはコミュニティユーザーによって提供されており、教育および情報提供のみを目的としています。著作権侵害に関わるコンテンツがある場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

映画の感情データセット

Command Palette

HelpSteer2 人間の好みの調整データセット

※本データセットはオンライン利用に対応しておりますが、ここをクリックしてジャンプしてください。

引用

AIでAIを構築

HyperAI Newsletters

Command Palette

HelpSteer2 人間の好みの調整データセット

※本データセットはオンライン利用に対応しておりますが、ここをクリックしてジャンプしてください。

引用

関連データセット

MAKIEVAL 多言語文化知識評価データセット

逐語的スパンクエリ条件証拠抽出データセット

SAM 3Dアーティストオブジェクト 3Dオブジェクト再構築データセット

映画の感情データセット

TACKターゲットキメラ知識ベースデータセット

EAVSD（電子商取引広告ビデオストーリーボードデータセット）

SMOL多言語翻訳並列データセット

chi-bench 医療インテリジェントエージェントベンチマーク評価データセット

ViMUビデオメタファー理解データセット

MemLensマルチモーダル長コンテキストベンチマークデータセット

AgentTroveインテリジェントエージェント相互作用軌跡データセット

LongBlocks 長文コンテキスト多言語質問応答データセット

Claw-Eval実世界ベンチマークデータセット

眼底疾患分類データセット

長距離山火事・煙検知データセット

QCalEval 量子較正グラフの理解データセット

RSRCCリモートセンシング領域変化理解ベンチマークデータセット

OpenMementos コンテキストメモリ圧縮データセット

OmniParsingBench マルチモーダル構文解析機能評価データセット

MDPBench 多言語文書解析ベンチマークデータセット

AIでAIを構築

HyperAI Newsletters

Command Palette

HelpSteer2 人間の好みの調整データセット

※本データセットはオンライン利用に対応しておりますが、ここをクリックしてジャンプしてください。

引用

関連データセット

MAKIEVAL 多言語文化知識評価データセット

逐語的スパンクエリ条件証拠抽出データセット

SAM 3Dアーティストオブジェクト 3Dオブジェクト再構築データセット

映画の感情データセット

TACKターゲットキメラ知識ベースデータセット

EAVSD（電子商取引広告ビデオストーリーボードデータセット）

SMOL多言語翻訳並列データセット

chi-bench 医療インテリジェントエージェントベンチマーク評価データセット

ViMUビデオメタファー理解データセット

MemLensマルチモーダル長コンテキストベンチマークデータセット

AgentTroveインテリジェントエージェント相互作用軌跡データセット

LongBlocks 長文コンテキスト多言語質問応答データセット

Claw-Eval実世界ベンチマークデータセット

眼底疾患分類データセット

長距離山火事・煙検知データセット

QCalEval 量子較正グラフの理解データセット

RSRCCリモートセンシング領域変化理解ベンチマークデータセット

OpenMementos コンテキストメモリ圧縮データセット

OmniParsingBench マルチモーダル構文解析機能評価データセット

MDPBench 多言語文書解析ベンチマークデータセット

AIでAIを構築

HyperAI Newsletters

関連データセット

MAKIEVAL 多言語文化知識評価データセット

逐語的スパンクエリ条件証拠抽出データセット

SAM 3Dアーティストオブジェクト 3Dオブジェクト再構築データセット

映画の感情データセット

TACKターゲットキメラ知識ベースデータセット

EAVSD（電子商取引広告ビデオストーリーボードデータセット）

SMOL多言語翻訳並列データセット

chi-bench 医療インテリジェントエージェントベンチマーク評価データセット

ViMUビデオメタファー理解データセット

MemLensマルチモーダル長コンテキストベンチマークデータセット

AgentTroveインテリジェントエージェント相互作用軌跡データセット

LongBlocks 長文コンテキスト多言語質問応答データセット

Claw-Eval実世界ベンチマークデータセット

眼底疾患分類データセット

長距離山火事・煙検知データセット

QCalEval 量子較正グラフの理解データセット

RSRCCリモートセンシング領域変化理解ベンチマークデータセット

OpenMementos コンテキストメモリ圧縮データセット

OmniParsingBench マルチモーダル構文解析機能評価データセット