مجموعة بيانات التفضيلات البشرية HH-RLHF
التاريخ
منذ شهر واحد
الحجم
90.35 MB
رابط النشر
رابط الورقة البحثية
الترخيص
MIT
*تدعم مجموعة البيانات هذه الاستخدام عبر الإنترنت.انقر هنا للقفز.
HH-RLHF هي مجموعة بيانات تفضيلات بشرية أصدرتها Anthropic في عام 2022، وتتكون بشكل أساسي من جزأين.
تكوين مجموعة البيانات:
- بيانات التفضيلات البشرية المفيدة/غير الضارة (بيانات PM):
- نتائج الورقة ذات الصلة هيتدريب مساعد مفيد وغير ضار من خلال التعلم التعزيزي من ردود الفعل البشرية"، والذي يهدف إلى استخدام التفضيلات البشرية لتعديل نموذج الحوار ليكون "مفيدًا" و"غير ضار".
- تتكون هذه المجموعة من عينات مقارنة استجابات مقترنة (تحتوي كل منها على استجابة مختارة/مرفوضة)، تغطي مدى المساعدة (من مصادر أساسية، وعينات مرفوضة، ومصادر عبر الإنترنت) وعدم الضرر (من مصادر أساسية). تنسيق البيانات بسيط ومباشر، لذا لا يُنصح باستخدام تحليل SFT المباشر. وهي مناسبة لحالات مثل تدريب RLHF/DPO، وبناء نموذج المكافآت، ومقارنة جودة الاستجابة وتقييمها.
- بيانات محادثة الفريق الأحمر (بيانات غير خاصة بالمدير العام):
- نتائج الورقة ذات الصلة هينماذج لغة الفريق الأحمر للحد من الأضرار: الأساليب وسلوكيات التوسع والدروس المستفادة"، والذي يهدف إلى دراسة أنواع الهجمات ومظاهر الضرر، والمساعدة في تقليل ضرر النماذج.
- تتكون هذه المجموعة من نصوص محادثات الفريق الأحمر وبياناته الوصفية الكاملة، بما في ذلك نصوص المحادثات، ونصوص الحد الأدنى لدرجة عدم الضرر، ونوع النموذج، والتقييم، ووصف المهمة، والوسوم، وغيرها. تشبه البيانات عمليات الفريق الأحمر الفعلية، وهي مُعلّقة بشرح وافٍ. لا تُستخدم هذه البيانات في نمذجة التحيز أو تحليل المخاطر الأمنية، ولكنها مناسبة لسيناريوهات مثل تحليل التوافق الأمني، وتقييمات الفريق الأحمر، واستنباط نوع الضرر، وتحسين السياسات.
HH-RLHF.torrent
البذر 1التنزيل 0مكتمل 8إجمالي التنزيلات 27