HyperAIHyperAI

Command Palette

Search for a command to run...

SciAtlas:用于自动化科学研究的大规模知识图谱

摘要

全球学术产出的指数级增长使研究人员和人工智能代理(AI agents)面临着前所未有的“信息爆炸”,其中碎片化和非结构化的知识组织阻碍了深度的跨学科融合。当前的学术检索工具主要依赖于浅层的关键词匹配或向量空间语义检索,缺乏导航复杂逻辑连接所需的拓扑推理能力。基于代理(agent)的深度研究框架往往容易出现逻辑幻觉,并消耗高昂的推理成本。为了弥补这一差距,在本报告中,我们介绍了 SciAtlas,这是一个大规模、多学科、异质的学术资源知识图谱,旨在作为全景式的科学演化网络。SciAtlas 整合了来自 26 个学科的超过 4300 万篇论文,共计 1.57 亿个实体和 30 亿个三元组,提供了一个结构化的拓扑认知基底,打破了学科壁垒,并为 AI agents 提供了全球视角。此外,我们开发了一种具有三路径协同召回和图重排序功能的神经符号检索算法,实现了从简单语义匹配到确定性关联发现的无缝过渡。我们还展示了 SciAtlas 的关键应用方向,包括文献综述、自动研究趋势综合、思想定位和学术轨迹探索,以证明 SciAtlas 可以作为有效的“认知地图”,在显著降低推理成本的同时,赋能自动化科学研究的全流程。我们已在 GitHub 仓库中发布了知识图谱(KG)检索及各类下游任务的接口。

一句话总结

作者提出了 SciATLAS,这是一个大规模异构知识图谱,将涵盖 26 个学科的 4300 万篇论文整合为 1.57 亿个实体和 30 亿个三元组。该图谱采用带有三路径协同召回和图重排序的神经符号检索算法,以实现确定性关联发现,显著降低推理成本,并为自动化科学研究提供认知地图。

核心贡献

  • SciATLAS 作为一个大规模异构学术知识图谱,将涵盖 26 个学科的 4300 万篇论文整合为包含 1.57 亿个实体和 30 亿个三元组的拓扑网络。这一结构化基底打破了学科壁垒,为 AI agent 跨学科研究提供了确定性的认知基础。
  • 利用三路径协同召回和图重排序的神经符号检索算法,将文献检索从语义匹配转变为确定性关联发现。该方法通过显式的图遍历为大语言模型提供锚点,从而减轻逻辑幻觉并降低 deep-research agent 的推理成本。
  • 该框架支持多项关键自动化研究工作流,包括文献综述、趋势综合、观点定位与学术轨迹探索。公开的知识图谱检索接口及下游任务接口证实了其作为可扩展认知地图,在端到端研究自动化中的实用价值。

引言

全球学术产出的指数级增长引发了信息爆炸,阻碍了深度的跨学科融合,并对自动化科学研究工作流的效率构成挑战。当前的检索机制难以支撑该领域,因为它们依赖扁平化的关键词匹配或向量空间语义搜索,缺乏导航复杂逻辑连接所需的拓扑推理能力。此外,基于 agent 的深度研究框架往往因缺乏确定性认知地图而面临高昂的推理成本与逻辑幻觉问题。作者推出了 SciATLAS,这是一个整合了 26 个学科超过 4300 万篇论文的大规模异构知识图谱,旨在为科学发现提供结构化的拓扑基底。他们利用带有三路径协同召回和图重排序的神经符号检索算法,在不进行迭代 LLM 调用的情况下实现确定性关联发现。该方法使 AI agent 能够获取全局认知视角,以执行观点定位和趋势综合等任务,同时显著降低推理开销。

数据集

  • 来源与构成:作者以 OpenAlex 作为基础数据源构建 SciATLAS,该数据源最初收录了超过 4.8 亿篇学术出版物。知识图谱以论文为核心,整合了作者、机构、关键词以及四层学科层级(领域、学科、子领域和主题)等相互关联的实体。
  • 规模与过滤规则:最终数据集包含 4330 万篇论文、1.097 亿位作者、376 万个关键词和 12 万个机构。过滤流程严格保留摘要足够长且拥有有效 PDF 链接的英文出版物。系统对论文标题和机构名称进行标准化与去重,同时有意保留作者重复项以应对命名歧义。缺少关键属性的记录将被移除。
  • 元数据构建与处理:为弥补 OpenAlex 宏观概念的稀疏性,作者采用轻量级 LLM 从摘要中提取每篇论文的 3 到 8 个可复用核心关键词。每个关键词获得重要性评分,共现边按频率加权以捕捉概念关联。该流程还使用 bge-large-en-v1.5 为标题、摘要和关键词生成语义向量,并直接将其存储为节点属性以支持混合检索。
  • 使用与集成:处理后的图部署于 Neo4j,并按四个关系层级组织:语义层(引用与相关性)、概念层(关键词共现)、方向层(学科层级)和社会层(作者归属与机构隶属)。作者未依赖传统的训练划分或混合比例,而是利用知识图谱进行拓扑搜索与推理。他们将按时间顺序排列的论文序列及作者发表列表输入结构化的 LLM 提示词中,生成用于研究趋势预测与学术画像的 JSON 输出。

方法

检索系统设计用于支持多种查询类型,包括关键词、科学问题、摘要、观点文本和完整论文,通过将它们映射到知识图谱(KG)中的多条不同路径来实现。该框架从节点匹配开始,处理查询以识别候选实体。对于基于关键词的查询,LLM 提取关键词列表及其重要性评分,形成集合 K={(ki,sillm)}i=1m\mathcal{K} = \{(k_i, s_i^{\text{llm}})\}_{i=1}^{m}K={(ki,sillm)}i=1m。这些关键词在 KG 中进行精确文本匹配和基于向量的语义匹配。对于精确匹配,分数直接赋值为 sillms_i^{\text{llm}}sillm,而对于向量匹配,分数计算为 sillmsim(ki,g)s_i^{\text{llm}} \cdot \text{sim}(k_i, \mathbf{g})sillmsim(ki,g),仅当相似度超过阈值 θkw\theta_{kw}θkw 时保留节点。每个关键词节点 ggg 的最终权重为其所有匹配分数的最大值,从而得到集合 Kseed={(g,wgkw)}\mathcal{K}_{\text{seed}} = \{(g, w_g^{kw})\}Kseed={(g,wgkw)}

对于语义匹配,查询 qqq 被嵌入为向量 eq\mathbf{e}_qeq,并基于标题和摘要嵌入检索前 60 篇论文。重排序器对这些候选项进行重排序,保留来自每个来源的前 15 项。每篇论文 ppp 的最终分数是其标题和摘要检索分数的加权组合,并经过归一化以处理缺失值。当查询包含论文标题时,会专门应用标题匹配。GROBID 提取标题,LLM 为每个标题分配置信度分数。这些标题经过标准化后,使用精确或模糊相似度与 KG 进行匹配,并设置阈值 θtitle\theta_{\text{title}}θtitle 进行过滤。论文 ppp 的匹配分数为 cjm(tj,p)c_j \cdot m(t_j, p)cjm(tj,p),其中 m(tj,p)m(t_j, p)m(tj,p) 结合最长公共子序列(LCS)和 token 重叠度。多个标题匹配通过取最高分数来解决。

语义匹配和标题匹配路径的结果被合并为统一的候选论文节点集合 Pseed\mathcal{P}_{\text{seed}}Pseed。为统一分数,计算查询嵌入与论文标题及摘要嵌入的点积,随后进行 MinMax 归一化。每篇论文 ppp 的最终图前权重定义为 sppre=λembs~pemb+λtitles~ptitle+bppres_p^{pre} = \lambda_{emb} \widetilde{s}_p^{emb} + \lambda_{title} \widetilde{s}_p^{title} + b_p^{pre}sppre=λembspemb+λtitlesptitle+bppre,其中 bppreb_p^{pre}bppre 是基于精确或模糊标题命中的标题奖励。此过程确立了检索的初始种子节点。

随后,系统从种子节点执行 2 跳子图传播,将所有边视为无向边。为管理可扩展性,每跳最多选择每种实体类型的 500 个节点。论文重要性基于引用次数计算,采用对数缩放以防止高被引论文占据主导。每篇种子论文 ppp 的未归一化权重为 wpseed=sppre(1+γimp(p))w_p^{seed} = s_p^{pre} \cdot (1 + \gamma \cdot \text{imp}(p))wpseed=sppre(1+γimp(p)),其中 γ\gammaγ 控制重要性的影响。对于种子关键词,权重为 wqseed=wqkww_{\vec{q}}^{seed} = w_{\vec{q}}^{kw}wqseed=wqkw。节点上的初始分布 s\mathbf{s}s 定义为 sv=wvseed/Zs_v = w_v^{seed} / Zsv=wvseed/Z,适用于种子集 S=PseedKseedS = \mathcal{P}_{\text{seed}} \cup \mathcal{K}_{\text{seed}}S=PseedKseed 中的节点,ZZZ 为归一化常数。边权重根据类型分配,具体定义见表格。

为探索拓扑关系,在图上进行带重启的随机游走。从节点 uuu 到邻居 vvv 的转移概率为 ω(u,v)/xN(u)ω(u,x)\omega(u, v) / \sum_{x \in N(u)} \omega(u, x)ω(u,v)/xN(u)ω(u,x)。分数向量 r(t)\mathbf{r}^{(t)}r(t) 初始化为 s\mathbf{s}s,并按 rv(t+1)=αsv+(1α)uru(t)P(vu)r_v^{(t+1)} = \alpha s_v + (1 - \alpha) \sum_u r_u^{(t)} P(v \mid u)rv(t+1)=αsv+(1α)uru(t)P(vu) 进行迭代更新,其中 α\alphaα 为重启概率。当连续两次迭代差异的 L1L_1L1 范数低于 10610^{-6}106 或达到 50 次迭代时,过程终止。最终节点分数 rvr_vrv 即为该扩散过程的结果。

最后,系统为每篇论文 ppp 计算综合最终分数:spfinal=min(1,λpres~ppre+λgraphs~pgraphgp+λimpimpfinal(p))s_p^{final} = \min(1, \lambda_{pre} \tilde{s}_p^{pre} + \lambda_{graph} \tilde{s}_p^{graph} g_p + \lambda_{imp} \text{imp}_{final}(p))spfinal=min(1,λpres~ppre+λgraphs~pgraphgp+λimpimpfinal(p))。图前分数 s~ppre\tilde{s}_p^{pre}s~ppre 经过 MinMax 归一化,图分数 s~pgraph\tilde{s}_p^{graph}s~pgraph 同样进行归一化。图支持因子 gp=max(0.25,s~ppre)g_p = \max(0.25, \tilde{s}_p^{pre})gp=max(0.25,s~ppre) 充当门控机制,确保通过图发现的论文必须具备足够的初始相关性才能获得高排名。最终分数结合了初始相关性、拓扑支持与引用重要性,系统返回排名前 20 的论文并附带详细解释。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供