HyperAI

HelpSteer2 مجموعة بيانات محاذاة التفضيلات البشرية

التاريخ

منذ 7 أشهر

الحجم

38.74 MB

المؤسسة

إنفيديا

رابط النشر

huggingface.co

الترخيص

CC BY 4.0

* هذه المجموعة من البيانات تدعم الاستخدام عبر الإنترنت.انقر هنا للقفز.

HelpSteer2 هي مجموعة بيانات مفتوحة المصدر تم إنشاؤها بشكل مشترك بين NVIDIA وScale AI في عام 2024. وتهدف إلى تدريب نموذج مكافأة يمكنه توجيه نماذج اللغة الكبيرة (LLMs) لتوليد إجابات عالية الجودة تلبي التفضيلات البشرية. "نتائج الورقة ذات الصلة هي"HelpSteer2: مجموعة بيانات مفتوحة المصدر لتدريب نماذج المكافآت ذات الأداء الأفضلتم تحديثه بناءً على مجموعة بيانات HelpSteer للتكيف مع نماذج LLMs الحالية الأكثر قوة. يحتوي HelpSteer2 على حوالي عشرة آلاف زوج من الإجابات، وهو أصغر بكثير من مجموعات بيانات التفضيلات الحالية، ولكنه فعال للغاية في تدريب نماذج المكافآت.

تم جمع مجموعة البيانات من خلال أخذ المطالبات من منصة ShareGPT وتوليد الاستجابات باستخدام نموذج أساسي قوي داخليًا. تتطلب عملية التعليق على الإجابات ثلاثة معلقين على الأقل لتعليق كل إجابة لتحسين جودة التعليق. تظهر الإحصائيات من HelpSteer2 أن إجابات النموذج تحصل على درجات أعلى من حيث المساعدة والصحة والترابط والتعقيد والإسهاب مقارنة بمجموعة بيانات HelpSteer.

تُعد مجموعة بيانات HelpSteer2 فعالة جدًا في تدريب نماذج المكافآت. على سبيل المثال، حقق نموذج Llama 3 70B المدرب باستخدام HelpSteer2 درجة 92.0% على مجموعة بيانات Reward-Bench الرئيسية، متفوقًا على جميع النماذج العامة والخاصة المدرجة اعتبارًا من 12 يونيو 2024. بالإضافة إلى ذلك، اقترح فريق البحث أيضًا طريقة محاذاة نموذج SteerLM 2.0، والتي يمكنها الاستفادة بشكل فعال من الدرجات المتعددة السمات الغنية التي يتنبأ بها نموذج المكافأة.

HelpSteer2.torrent
البذر 2التنزيل 1مكتمل 68إجمالي التنزيلات 129
  • HelpSteer2/
    • README.md
      2.08 KB
    • README.txt
      4.15 KB
      • data/
        • HelpSteer2.zip
          38.74 MB