11 天前

预训练何时有效?基于法律领域与CaseHOLD数据集的自监督学习评估

Lucia Zheng, Neel Guha, Brandon R. Anderson, Peter Henderson, Daniel E. Ho
预训练何时有效?基于法律领域与CaseHOLD数据集的自监督学习评估
摘要

尽管自监督学习在自然语言处理领域取得了快速进展,但研究人员在何种情况下应开展资源密集型的领域特定预训练(即领域预训练)仍不明确。令人困惑的是,尽管法律语言普遍被认为具有独特性,但现有研究中鲜有文献记录到领域预训练带来显著性能提升。我们推测,这一现象的原因在于:当前的法律自然语言处理任务过于简单,未能满足领域预训练能够发挥优势的必要条件。为解决这一问题,我们首先提出了CaseHOLD(Case Holdings On Legal Decisions)数据集——一个包含超过5.3万个多项选择题的新数据集,旨在识别引用案例中的相关判决要旨(holding)。该任务是法律实务中的基础性工作,从法律意义上看具有重要价值,同时在自然语言处理层面也极具挑战性(采用BiLSTM基线模型的F1分数仅为0.4)。其次,我们在CaseHOLD及现有法律NLP数据集上评估了不同模型的性能提升。结果显示,虽然在通用语料库(Google Books与Wikipedia)上预训练的Transformer架构(如BERT)已带来一定性能改进,但使用涵盖全美约350万份判决文书的大型法律语料库、并结合定制法律词汇表进行领域预训练的模型,在CaseHOLD任务上实现了最显著的性能提升——F1分数提升7.2个百分点,相当于在BERT基础上实现12%的相对改进;同时在另外两项法律任务上也表现出一致的性能增益。第三,我们发现:当目标任务与预训练语料库在领域上具有足够相似性时,领域预训练才具有充分合理性。在三个法律任务中,性能提升幅度与任务的领域特异性呈直接正相关。综上,本研究为研究人员在何时应投入资源开展领域预训练提供了实证依据,并表明基于Transformer的模型同样能够学习到反映法律语言独特性的语义表示。