2 个月前

TopicEq:科学文本的主题与数学公式联合模型

Michihiro Yasunaga; John Lafferty
TopicEq:科学文本的主题与数学公式联合模型
摘要

科学文献依赖数学和文字来传达思想。受到科学文献中观察到的数学公式与文字上下文之间主题对应性的启发,我们提出了一种新的主题模型,该模型可以同时生成数学公式及其周围的文本(TopicEq)。通过扩展相关主题模型,上下文从潜在主题的混合体中生成,而公式则由一个依赖于潜在主题激活状态的递归神经网络(RNN)生成。为了实验这一模型,我们从arXiv上的一系列科学文章中提取了40万对公式-上下文组合,创建了一个语料库,并采用变分自编码器方法对模型进行拟合。实验结果表明,这种联合模型在科学文献的主题建模和公式建模方面显著优于现有的模型。此外,我们定性地展示了该模型能够有效捕捉主题与数学之间的关系,从而支持诸如基于主题的公式生成、公式主题推断以及数学符号与词汇的基于主题的对齐等新型应用。

TopicEq:科学文本的主题与数学公式联合模型 | 最新论文 | HyperAI超神经