
摘要
我们引入了一种新的研究资源——高质量、领域特定的历史文献版面分析数据集。该数据集提供了基于历史版面结构的19类实例分割标注真值,其分类依据包括:(a)出版生产流程及不同文献类型(如生命科学、建筑、艺术、装饰艺术等);(b)特定文本体裁(如专著、行业期刊、图文杂志等)。整体而言,该数据集包含超过52,000个由专家标注的实例。我们采用广为人知的Mask R-CNN模型进行了基准测试,并将其与当前最先进的VSR模型进行了对比。受自然语言处理(NLP)领域评估实践的启发,我们提出了一种新的标注一致性评估方法。该方法基于Krippendorff’s alpha(K-α)统计量,用于量化所谓的“标注者间一致性”(inter-annotator agreement)。特别地,我们提出了一种对K-α的改进方法,将标注视为多部图(multipartite graph)结构,以评估不同数量标注者之间的协议程度。该方法在评估严格性方面具有可调性,适用于二维(2D)与三维(3D)场景,亦可广泛应用于多种任务,包括语义分割、实例分割以及三维点云分割。