HelpSteer2 は、NVIDIA と Scale AI が 2024 年に共同で作成したオープンソース データ セットです。これは、人間の好みに合わせて高品質な回答を生成するように大規模言語モデル (LLM) をガイドできる報酬モデルをトレーニングするように設計されています。 」HelpSteer2: 最高のパフォーマンスの報酬モデルをトレーニングするためのオープンソース データセット”。これは HelpSteer データ セットに基づいており、現在のより強力な LLM に適応するように更新されています。 HelpSteer2 には約 1 万組の応答が含まれており、既存の嗜好データセットよりも一桁小さいにもかかわらず、報酬モデルのトレーニングに非常に効率的です。
このデータセットの収集プロセスには、ShareGPT プラットフォームからプロンプトを取得し、社内の強力な基礎モデルを使用して回答を生成することが含まれます。注釈の品質を向上させるために、回答の注釈プロセスでは、各回答に注釈を付けるために少なくとも 3 人のアノテーターが必要です。 HelpSteer2 の統計によると、模範解答は HelpSteer データセットと比較して、有用性、正確性、一貫性、複雑さ、冗長性の点で高いスコアを獲得しています。
HelpSteer2 データセットは、報酬モデルのトレーニングに非常に効果的です。たとえば、HelpSteer2 でトレーニングされた Llama 3 70B モデルは、メインの Reward-Bench データセットで 92.0% のスコアを達成し、2024 年 6 月 12 日の時点でリストされているすべての公開モデルおよび独自モデルを上回りました。さらに研究チームは、報酬モデルによって予測される豊富な多属性評価を効果的に活用できるSteerLM 2.0モデルアライメント手法も提案しました。
做种 3
下载中 0
已完成 23
总下载 43