DISC-Law-SFT 数据集是由复旦大学数据智能与社会计算实验室 (Fudan-DISC) 于 2023 年构建的高质量监督微调 (Supervised Fine-Tuning, SFT) 数据集,用于训练和提升大型语言模型 (LLMs) 在法律领域的应用能力,包含近 30 万条训练数据。该数据集专为中文法律领域设计,旨在提高模型在法律文本处理、法律推理思维以及司法领域知识检索遵循等方面的能力。相关论文为「DISC-LawLLM: Fine-tuning Large Language Models for Intelligent Legal Services」
数据集包含两个子集:DISC-Law-SFT-Pair 和 DISC-Law-SFT-Triplet 。 DISC-Law-SFT-Pair 子集通过法律三段论的指令对构造方法,引入法律推理能力;而 DISC-Law-SFT-Triplet 子集则通过构造包含输入、输出和参考信息的三元组,增强模型利用外部知识的能力。
数据集的数据来源主要包括三部分:与中国法律相关的 NLP 司法任务公开数据集、来自真实世界的法律相关原始文本、以及通用的开源数据集。这样的数据来源确保了数据集的多样性和丰富性。
做种 1
下载中 0
已完成 57
总下载 170