
摘要
本文介绍了VICTOR,一个基于巴西高等法院数字化法律文件构建的新型数据集。该数据集包含超过4.5万份上诉案件,涵盖约69.2万份文档,总计约460万页。数据集包含标注的文本数据,支持两类任务:文档类型分类和主题标注(一种多标签分类问题)。我们采用词袋模型、卷积神经网络、循环神经网络以及提升算法(boosting algorithms)进行了基线实验。此外,我们还尝试使用线性链条件随机场(linear-chain Conditional Random Fields)以利用诉讼文件的序列特性,结果表明该方法在文档类型分类任务上取得了性能提升。最后,我们对比了两种主题分类策略:一种是基于领域知识筛选出信息量较低的文档页面,另一种是默认使用所有页面。与法院专家的预期相反,实验结果表明,使用全部可用数据的方法表现更优。为促进更优模型与技术的探索,我们以三种不同规模和内容的版本公开发布该数据集。