HH-RLHF 인간 선호도 데이터 세트

날짜

한 달 전

크기

90.35 MB

기관

인류학적

발행 주소

huggingface.co

논문 URL

2209.07858

라이선스

MIT

*이 데이터 세트는 온라인 사용을 지원합니다.여기를 클릭하여 이동하세요.

HH-RLHF는 Anthropic이 2022년에 발표한 인간 선호도 데이터 세트로, 주로 두 부분으로 구성되어 있습니다.

데이터 세트 구성:

  • 유익/무해한 인간 선호도 데이터(PM 데이터):
    • 관련 논문 결과는 다음과 같습니다.인간 피드백을 통한 강화 학습을 통해 도움이 되고 무해한 조수 훈련"는 인간의 선호도를 사용하여 대화 모델을 "유익하게" 하고 "무해하게" 조정하는 것을 목표로 합니다.
    • 이 데이터셋은 짝지어진 응답 비교 샘플(각각 선택/거부된 응답 포함)로 구성되며, 도움성(기본, 거부 샘플링 및 온라인 출처)과 무해성(기본)을 다룹니다. 데이터 형식이 간단하고 직관적이므로 직접적인 SFT(Supreme Transformation)는 권장되지 않습니다. RLHF/DPO 훈련, 보상 모델 구축, 응답 품질 비교 및 평가와 같은 시나리오에 적합합니다.
  • 레드팀 대화 데이터(비PM 데이터):
    • 관련 논문 결과는 다음과 같습니다.피해를 줄이기 위한 레드 팀 언어 모델: 방법, 확장 동작 및 얻은 교훈"는 공격 유형과 피해 양상을 연구하고 모델의 유해성을 줄이는 데 도움이 되는 것을 목표로 합니다.
    • 이 데이터세트는 완전한 레드팀 대화 내용과 메타데이터(대본, min_harmlessness_score_transcript, model_type, rating, task_description, 태그 등)로 구성됩니다. 이 데이터는 실제 레드팀 프로세스와 유사하며 풍부한 주석이 포함되어 있습니다. 편향 모델링이나 SFT(Secure Transformation)에는 사용되지 않지만, 보안 정렬 분석, 레드팀 평가, 위험 유형 유도 및 정책 개선과 같은 시나리오에 적합합니다.

HH-RLHF.torrent
시딩 1다운로드 중 0완료됨 8총 다운로드 횟수 32
  • HH-RLHF/
    • README.md
      1.98 KB
    • README.txt
      3.96 KB
      • data/
        • HH-RLHF.zip
          90.35 MB