17 天前

将数据筛选整合至科学出版中以训练AI模型

Jorge Abreu-Vicente, Hannah Sonntag, Thomas Eidens, Cassie S. Mitchell, Thomas Lemberger
将数据筛选整合至科学出版中以训练AI模型
摘要

高效地从学术论文中提取数据并进行结构化标注,对于支持下游机器学习应用及二次分析至关重要。我们已将多模态数据整理工作嵌入学术出版流程,对图像分段图注(figure panels and captions)进行标注。通过结合自然语言处理(NLP)技术与原始作者参与的“人机协同”反馈机制,显著提升了标注的准确性。标注内容涵盖八类生物实体(小分子、基因产物、亚细胞组分、细胞系、细胞类型、组织、生物体和疾病),并额外增设类别以明确实体在实验设计与方法学中的角色。由此构建的数据集——SourceData-NLP,包含超过62万条经人工校验的生物医学实体标注,数据源自3,223篇分子与细胞生物学领域的论文中的18,689幅图像。我们通过三项任务评估该数据集在训练人工智能模型方面的实用性:命名实体识别、将图注分割为对应图注单元、以及一项新颖的上下文依赖性语义任务,用于判断某一实体是受控干预目标还是观测测量对象。此外,我们还展示了该数据集在执行多模态任务中的应用,即实现图像的分段(panel images)与对应图注的精准分割与匹配。