HyperAIHyperAI

Command Palette

Search for a command to run...

HH-RLHF 인간 선호도 데이터 세트

날짜

9달 전

크기

90.35 MB

조직

Anthropic

Paper URL

2209.07858

라이선스

MIT

HH-RLHF는 Anthropic이 2022년에 발표한 인간 선호도 데이터 세트로, 주로 두 부분으로 구성되어 있습니다.

데이터 세트 구성:

  • 유익/무해한 인간 선호도 데이터(PM 데이터):
  • 관련 논문 결과는 다음과 같습니다.인간 피드백을 통한 강화 학습을 통해 도움이 되고 무해한 조수 훈련"는 인간의 선호도를 사용하여 대화 모델을 "유익하게" 하고 "무해하게" 조정하는 것을 목표로 합니다.
  • 이 데이터셋은 짝지어진 응답 비교 샘플(각각 선택/거부된 응답 포함)로 구성되며, 도움성(기본, 거부 샘플링 및 온라인 출처)과 무해성(기본)을 다룹니다. 데이터 형식이 간단하고 직관적이므로 직접적인 SFT(Supreme Transformation)는 권장되지 않습니다. RLHF/DPO 훈련, 보상 모델 구축, 응답 품질 비교 및 평가와 같은 시나리오에 적합합니다.
  • 레드팀 대화 데이터(비PM 데이터):
  • 관련 논문 결과는 다음과 같습니다.피해를 줄이기 위한 레드 팀 언어 모델: 방법, 확장 동작 및 얻은 교훈"는 공격 유형과 피해 양상을 연구하고 모델의 유해성을 줄이는 데 도움이 되는 것을 목표로 합니다.
  • 이 데이터세트는 완전한 레드팀 대화 내용과 메타데이터(대본, min_harmlessness_score_transcript, model_type, rating, task_description, 태그 등)로 구성됩니다. 이 데이터는 실제 레드팀 프로세스와 유사하며 풍부한 주석이 포함되어 있습니다. 편향 모델링이나 SFT(Secure Transformation)에는 사용되지 않지만, 보안 정렬 분석, 레드팀 평가, 위험 유형 유도 및 정책 개선과 같은 시나리오에 적합합니다.
HH-RLHF.torrent
시딩 2다운로드 중 0완료됨 30총 다운로드 수 116
  • HH-RLHF/
    • README.md
      1.98 KB
    • README.txt
      3.96 KB
      • data/
        • HH-RLHF.zip
          90.35 MB

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp