HyperAIHyperAI

Command Palette

Search for a command to run...

HelpSteer2 مجموعة بيانات محاذاة التفضيلات البشرية

التاريخ

منذ عام واحد

الحجم

38.74 MB

المؤسسة

إنفيديا

رابط الورقة البحثية

huggingface.co

الترخيص

CC BY 4.0

* هذه المجموعة من البيانات تدعم الاستخدام عبر الإنترنت.انقر هنا للقفز.

HelpSteer2 هي مجموعة بيانات مفتوحة المصدر تم إنشاؤها بشكل مشترك بين NVIDIA وScale AI في عام 2024. وتهدف إلى تدريب نموذج مكافأة يمكنه توجيه نماذج اللغة الكبيرة (LLMs) لتوليد إجابات عالية الجودة تلبي التفضيلات البشرية. "نتائج الورقة ذات الصلة هي"HelpSteer2: مجموعة بيانات مفتوحة المصدر لتدريب نماذج المكافآت ذات الأداء الأفضلتم تحديثه بناءً على مجموعة بيانات HelpSteer للتكيف مع نماذج LLMs الحالية الأكثر قوة. يحتوي HelpSteer2 على حوالي عشرة آلاف زوج من الإجابات، وهو أصغر بكثير من مجموعات بيانات التفضيلات الحالية، ولكنه فعال للغاية في تدريب نماذج المكافآت.

تم جمع مجموعة البيانات من خلال أخذ المطالبات من منصة ShareGPT وتوليد الاستجابات باستخدام نموذج أساسي قوي داخليًا. تتطلب عملية التعليق على الإجابات ثلاثة معلقين على الأقل لتعليق كل إجابة لتحسين جودة التعليق. تظهر الإحصائيات من HelpSteer2 أن إجابات النموذج تحصل على درجات أعلى من حيث المساعدة والصحة والترابط والتعقيد والإسهاب مقارنة بمجموعة بيانات HelpSteer.

تُعد مجموعة بيانات HelpSteer2 فعالة جدًا في تدريب نماذج المكافآت. على سبيل المثال، حقق نموذج Llama 3 70B المدرب باستخدام HelpSteer2 درجة 92.0% على مجموعة بيانات Reward-Bench الرئيسية، متفوقًا على جميع النماذج العامة والخاصة المدرجة اعتبارًا من 12 يونيو 2024. بالإضافة إلى ذلك، اقترح فريق البحث أيضًا طريقة محاذاة نموذج SteerLM 2.0، والتي يمكنها الاستفادة بشكل فعال من الدرجات المتعددة السمات الغنية التي يتنبأ بها نموذج المكافأة.

HelpSteer2.torrent
البذر 1جارٍ التنزيل 0مكتمل 201إجمالي التنزيلات 422
  • HelpSteer2/
    • README.md
      2.08 KB
    • README.txt
      4.15 KB
      • data/
        • HelpSteer2.zip
          38.74 MB

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp