DISC-Law-SFT 고품질 중국 법률 감독 미세 조정 데이터 세트
* 이 데이터 세트는 온라인 사용을 지원합니다.여기를 클릭하여 이동하세요.
DISC-Law-SFT 데이터 세트는 2023년 복단대학교 데이터 인텔리전스 및 소셜 컴퓨팅 연구실(Fudan-DISC)에서 구축한 고품질 지도 학습 미세 조정(SFT) 데이터 세트입니다. 이 데이터 세트는 법률 분야에서 대규모 언어 모델(LLM)의 응용 역량을 훈련하고 향상시키는 데 사용되며 약 30만 개의 훈련 데이터를 포함합니다. 이 데이터 세트는 중국 법률 분야를 위해 특별히 설계되었으며, 법률 텍스트 처리, 법적 추론 사고, 사법 분야의 지식 검색 및 준수 측면에서 모델의 역량을 개선하는 것을 목표로 합니다. 관련 논문은DISC-LawLLM: 지능형 법률 서비스를 위한 대규모 언어 모델 미세 조정"
이 데이터 세트에는 DISC-Law-SFT-Pair와 DISC-Law-SFT-Triplet이라는 두 개의 하위 세트가 포함되어 있습니다. DISC-Law-SFT-Pair 하위 집합은 법적 삼단논법의 지시 쌍 구성 방법을 통해 법적 추론 능력을 도입하는 반면, DISC-Law-SFT-Triplet 하위 집합은 입력, 출력 및 참조 정보를 포함하는 트리플을 구성하여 외부 지식을 활용하는 모델의 능력을 향상시킵니다.
데이터 세트의 데이터 소스는 주로 세 가지 부분으로 구성됩니다. 중국 법률과 관련된 NLP 사법 업무의 공개 데이터 세트, 현실 세계의 원본 법률 텍스트, 일반적인 오픈 소스 데이터 세트입니다. 이러한 데이터 소스는 데이터 세트의 다양성과 풍부함을 보장합니다.
DISC-법률-SFT.torrent
시딩 1다운로드 중 0완료됨 153총 다운로드 횟수 532