17 天前

SciCap:生成科学图表的标题

Ting-Yao Hsu, C. Lee Giles, Ting-Hao &#39, Kenneth&#39, Huang
SciCap:生成科学图表的标题
摘要

研究人员常通过图表在科技论文中传达丰富而复杂的信息,而图表的标题在有效传递信息方面起着至关重要的作用。然而,当前科技论文中普遍存在低质量的图表标题,这可能影响读者的理解。为此,本文提出了一种端到端的神经网络框架,用于自动生成信息丰富、高质量的科学图表标题。为支持该研究,我们构建了SCICAP——一个基于2010年至2020年间计算机科学领域arXiv论文的大规模图表-标题数据集。经过预处理(包括图表类型分类、子图识别、文本规范化及标题文本筛选),SCICAP最终包含了来自超过29万篇论文的逾两百万张图表。在此基础上,我们建立了针对图示类图表(占所有图表的19.2%,为主要类型)的基线标题生成模型。实验结果表明,尽管在科学图表自动标题生成方面展现出一定潜力,但仍面临严峻挑战。