HyperAIHyperAI

Command Palette

Search for a command to run...

مجموعة بيانات التفضيلات البشرية HH-RLHF

التاريخ

منذ 5 أشهر

الحجم

90.35 MB

المؤسسة

أنثروبي

رابط الورقة البحثية

2209.07858

الترخيص

MIT

HH-RLHF هي مجموعة بيانات تفضيلات بشرية أصدرتها Anthropic في عام 2022، وتتكون بشكل أساسي من جزأين.

تكوين مجموعة البيانات:

  • بيانات التفضيلات البشرية المفيدة/غير الضارة (بيانات PM):
    • نتائج الورقة ذات الصلة هيتدريب مساعد مفيد وغير ضار من خلال التعلم التعزيزي من ردود الفعل البشرية"، والذي يهدف إلى استخدام التفضيلات البشرية لتعديل نموذج الحوار ليكون "مفيدًا" و"غير ضار".
    • تتكون هذه المجموعة من عينات مقارنة استجابات مقترنة (تحتوي كل منها على استجابة مختارة/مرفوضة)، تغطي مدى المساعدة (من مصادر أساسية، وعينات مرفوضة، ومصادر عبر الإنترنت) وعدم الضرر (من مصادر أساسية). تنسيق البيانات بسيط ومباشر، لذا لا يُنصح باستخدام تحليل SFT المباشر. وهي مناسبة لحالات مثل تدريب RLHF/DPO، وبناء نموذج المكافآت، ومقارنة جودة الاستجابة وتقييمها.
  • بيانات محادثة الفريق الأحمر (بيانات غير خاصة بالمدير العام):
    • نتائج الورقة ذات الصلة هينماذج لغة الفريق الأحمر للحد من الأضرار: الأساليب وسلوكيات التوسع والدروس المستفادة"، والذي يهدف إلى دراسة أنواع الهجمات ومظاهر الضرر، والمساعدة في تقليل ضرر النماذج.
    • تتكون هذه المجموعة من نصوص محادثات الفريق الأحمر وبياناته الوصفية الكاملة، بما في ذلك نصوص المحادثات، ونصوص الحد الأدنى لدرجة عدم الضرر، ونوع النموذج، والتقييم، ووصف المهمة، والوسوم، وغيرها. تشبه البيانات عمليات الفريق الأحمر الفعلية، وهي مُعلّقة بشرح وافٍ. لا تُستخدم هذه البيانات في نمذجة التحيز أو تحليل المخاطر الأمنية، ولكنها مناسبة لسيناريوهات مثل تحليل التوافق الأمني، وتقييمات الفريق الأحمر، واستنباط نوع الضرر، وتحسين السياسات.

HH-RLHF.torrent
البذر 1جارٍ التنزيل 0مكتمل 21إجمالي التنزيلات 106
  • HH-RLHF/
    • README.md
      1.98 KB
    • README.txt
      3.96 KB
      • data/
        • HH-RLHF.zip
          90.35 MB

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp