LawInstruct: 최초의 대규모 법률 지침 데이터 세트
LawInstruct는 법률 분야의 최초의 대규모 지침 데이터 세트입니다. 이 데이터 세트는 스탠포드 대학, 존스 홉킨스 대학 및 기타 기관에서 공동으로 제작하여 2024년 4월에 공개되었습니다. LawInstruct는 법률 업무를 위한 기존 데이터 세트의 빈틈을 메우고 법률 분야의 모델 개발을 가속화하기 위해 만들어졌습니다.
- 데이터 세트 특성:
- 적용 범위: LawInstruct는 17개 관할권과 24개 언어를 다루므로 데이터 세트의 폭넓은 적용성과 다양성을 보장합니다.
- 규모와 다양성: 질문 답변, 함축, 요약, 정보 추출 등 다양한 법률 업무를 다루는 1,200만 개의 교육 예제가 포함되어 있습니다.
- 데이터 세트 구조:
- 각 예제는 맞춤형 지침 형식으로 제공되어 데이터 일관성과 작동성을 보장합니다.
- 여기에는 다양한 법률 업무와 전문 분야에서 수집된 58개의 고품질 주석이 달린 데이터 세트가 통합되어 있습니다.
- 기술 구현:
- 우리는 689GB의 다국어 법률 자료인 MultiLegalPile을 사용하여 모델에 대한 풍부한 사전 학습 자료를 제공했습니다.
- 성능 개선:
- LawInstruct의 지침을 조정함으로써 LegalBench에서 Flan-T5 XL 모델의 균형 잡힌 정확도가 크게 개선되어, 데이터 세트가 모델 성능에 미치는 긍정적인 영향이 검증되었습니다.
- 연구 및 논문:
- 관련 연구 결과가 논문에 게재되었습니다.FLawN-T5: 법적 추론을 위한 효과적인 교육 튜닝 데이터 혼합에 대한 실증적 검토"LawInstruct 데이터 세트의 구성 과정과 실험 결과를 자세히 기록합니다.
LawInstruct.torrent
시딩 1다운로드 중 1완료됨 89총 다운로드 횟수 199