LawInstruct 是首个面向法律领域的大型指令数据集。该数据集由斯坦福大学、约翰霍普金斯大学等机构联合创建,发布时间为 2024 年 4 月。 LawInstruct 的创建旨在填补现有法律任务数据集的空白,并加速法律领域模型的发展。
- 数据集特点:
- 覆盖范围:LawInstruct 涵盖了 17 个司法管辖区和 24 种语言,确保了数据集的广泛适用性和多样性。
- 规模与多样性:包含 1200 万个训练示例,覆盖问答、蕴含、摘要和信息提取等多种法律任务。
- 数据集结构:
- 每个示例都按照定制的指令形式呈现,确保了数据的一致性和可操作性。
- 整合了 58 个经过标注的高质量数据集,源自不同的法律任务和专业领域。
- 技术实现:
- 使用了 MultiLegalPile,一个 689GB 的多语言法律语料库,为模型提供了丰富的预训练材料。
- 性能提升:
- 通过在 LawInstruct 上进行指令调整,Flan-T5 XL 模型在 LegalBench 上的平衡准确率显著提高,验证了数据集对模型性能的积极影响。
- 研究与论文: