HyperAIHyperAI

Command Palette

Search for a command to run...

1 年前

微软学术自动文档搜索:期刊文章的准确性及引文分析的适用性

Mike Thelwall

一键部署微软开源的 3D 资产生成模型 TRELLIS

20 小时 RTX 5090 算力资源,仅 $1 (原价 $7)
跳转至 Notebook

摘要

微软学术(Microsoft Academic)是一个免费的学术搜索引擎和引文索引,类似于Google Scholar,但支持自动查询。如果能够有效检索单个期刊文章,其数据可能对文献计量分析具有潜在价值。本文比较了在微软学术索引中通过组合搜索标题、作者、出版年份和期刊名称来查找期刊文章的不同方法,并利用这些结果进行了迄今为止最广泛的微软学术期刊文章引文计数的相关性分析。基于2012年来自323个Scopus子领域的126,312篇文章,使用DOI查找文章的最佳策略是按标题搜索并过滤掉具有错误DOI的文章。该策略可找到90%的期刊文章。对于没有DOI的文章,最佳策略是按标题搜索,然后过滤掉元数据不相似的匹配项。该策略可找到89%的期刊文章,另有1%的错误匹配。剩余的文章似乎主要未被微软学术收录,或其标题以不同语言版本收录。在匹配文章中,Scopus引文计数与微软学术引文计数的平均Spearman相关系数为0.95,任一单一领域中的最低相关系数为0.63。因此,对于非近期发表的文章,微软学术引文计数几乎普遍等同于Scopus引文计数,但结果中存在国家偏见。

一句话总结

通过自动化基于标题的搜索并过滤不匹配的元数据,本文证明 Microsoft Academic 能够检索到约 90% 的已索引期刊论文,其产生的引用计数与 Scopus 高度相关(平均 Spearman 相关系数为 0.95)。尽管存在已知的国家层面偏差,这仍证实了该平台适用于大规模文献计量分析。

核心贡献

  • 本文通过在 Microsoft Academic 中结合基于标题的搜索与 DOI 验证过滤,为带有 DOI 的期刊论文确立了最优检索策略,成功找回 90% 的目标文献,同时排除了错误匹配。
  • 针对无 DOI 的文献,该研究引入了一种以标题驱动的搜索协议,通过过滤元数据差异较大的记录来保持检索精度,在仅 1% 的错误匹配率下成功检索到 89% 的目标文献。
  • 对分布在 323 个 Scopus 子领域的 126,312 篇文献进行的大规模相关性分析表明,Microsoft Academic 与 Scopus 的引用计数平均 Spearman 相关系数为 0.95。这证实了两者在成熟出版物上的等效性,同时识别出轻微的国家索引偏差。

引言

学术影响力评估依赖于准确的引文追踪,但在不同学术数据库间匹配期刊论文仍是一项持续的技术挑战。现有方法常遇到元数据不一致的问题,尤其是对于缺乏数字对象标识符的出版物,且不同来源的引用计数往往会导致跨学科的影响力指标出现差异。为弥补这些不足,研究团队系统评估了多种在 Microsoft Academic 中识别期刊论文的匹配策略,并在有或无 DOI 的情况下对其准确性进行基准测试。研究进一步考察了 Microsoft Academic 引用计数与 Scopus 数据的相关性,最终为可靠的文献计量分析提供了结合学科背景的建议。

数据集

  • 数据集构成与来源: 研究团队汇编了一份文献计量数据集,数据来源于 2012 年发表的 Scopus 索引期刊论文,并搭配了从 Microsoft Academic API 检索到的引用指标与匹配结果。这种跨数据库的组合实现了对引用指标和自动化文档检索策略的大规模验证。

  • 子集详情与过滤: 初始数据集包含 335 个 Scopus 子领域最后 5,000 篇 2012 年发表的文献。在排除 7 个零记录领域并过滤掉无 DOI 的文献后,数据集包含 326 个领域的 1,005,074 篇文档。随后,研究团队采用不放回抽样方式从每个领域随机抽取 400 篇文献,最终移除 3 个样本量过少的领域,得到分布在 323 个子领域的 126,312 篇期刊论文最终集合。

  • 数据使用与评估框架: 研究团队未采用传统的机器学习划分或混合比例。相反,他们利用该数据集对所有 323 个子领域的四种 Microsoft Academic 查询策略进行系统基准测试。每种策略均使用精确率与召回率指标进行评估,随后通过 Spearman 相关性分析,以 Scopus 基准验证 Microsoft Academic 的引用计数。为处理偏态分布,引用计数采用几何平均值进行计算。

  • 元数据构建与处理: 查询字符串仅由第一作者(名首字母与姓氏)、期刊名称、发表年份和标题构建。所有文本均经过严格标准化处理:转换为小写、去除重音符号、剥离 HTML 标签、将希腊字母替换为发音等效字符,并将连字符、撇号和连词符等特殊字符替换为空格。匹配验证依赖于转换小写并移除点号后的精确 DOI 比对。在无法获取 DOI 时,处理流程会拒绝显示两个或以上元数据不匹配或标题词重叠率低于 85% 的结果。

实验

本研究评估了 Microsoft Academic 在跨学科与跨国背景下检索期刊论文及匹配引用计数的能力。检索测试证实,优化后的基于标题的查询能够实现高精确率与召回率,尽管覆盖率缺口主要源于期刊索引限制、多语言标题不一致以及查询生成错误。引用分析表明,Microsoft Academic 的计数在大多数领域与 Scopus 数据高度一致,验证了该平台作为文献计量评估的可靠且具成本效益的替代方案。尽管对无法访问机构数据库的研究者极具实用价值,但研究结果提醒需避免未加调整的跨国比较,并指出在正式评估场景中引用计数仍易受操纵。

研究团队对比了从 Microsoft Academic 检索文章的不同查询方法,并评估其召回率与精确率。结果显示,与完整查询或作者-标题查询相比,基于标题的查询通常能获得更高的召回率与精确率,其中仅使用标题的方法整体表现最佳。研究强调,查询设计显著影响检索效果,且最优方法与既往研究结论一致。仅使用标题的查询相比完整或作者-标题查询实现了最高的召回率与精确率。最优查询方法在不同指标下表现均保持稳定,中位数与平均召回率、精确率均较高。结果表明,查询设计是检索效果的关键因素,简单的基于标题的搜索优于更复杂的查询。

研究团队按第一作者所属国家分析了 Microsoft Academic 文章匹配的完整度,发现来自英语国家的文章匹配率更高。表格显示出一条清晰趋势:在 Scopus 中英语出版物占比越高的国家,在 Microsoft Academic 中的匹配率也越高。澳大利亚和美国等国家的匹配率接近 95%,而巴西和中国等国家的匹配率较低。数据表明,语言与索引差异会影响检索成功率,尤其对非英语出版物影响显著。英语国家(如澳大利亚和美国)的匹配率接近 95%,而非英语国家(如巴西和中国)匹配率较低,反映出潜在的语言与索引挑战。

表格展示了 Scopus 与 Microsoft Academic 引用计数的汇总统计,显示两者之间存在高度相关性。结果表明,Microsoft Academic 引用计数通常与 Scopus 高度吻合,几何平均值差异微小,整体相关性极强。数据表明,Microsoft Academic 可作为引用分析的可靠替代方案,尽管不同领域与文献间存在一定差异。Microsoft Academic 与 Scopus 引用计数的平均 Spearman 相关系数为 0.948。两种来源的引用计数总体相似,各文献的几何平均值差异较小。数据进一步说明,Microsoft Academic 可作为 Scopus 在引用分析中的实用替代方案,尽管两者间仍存在一定波动。

实验评估了从 Microsoft Academic 检索期刊论文的不同查询方法,并对比了各种搜索策略下的召回率与精确率。结果显示,结合作者与标题信息的查询方法相比仅使用标题或年份的方法,获得了更高的召回率与精确率,其中完整查询方法整体表现最佳。分析还指出,基于标题搜索的最优方法与既往研究一致,且 Microsoft Academic 引用计数与 Scopus 高度相关,尽管国家与语言差异会影响检索完整度。结合作者与标题信息的查询方法相比仅使用标题或年份的方法实现了更高的召回率与精确率。完整查询方法在所有指标下均取得最高召回率与精确率,其中位数与平均值均为最高。Microsoft Academic 引用计数与 Scopus 呈现强相关性,但检索完整度受国家与语言因素影响而有所差异。

实验评估了不同查询方法检索 Microsoft Academic 期刊论文的有效性,并对比了多种搜索策略的召回率与精确率。结果表明,结合作者与标题信息的查询方法取得了最高的召回率与精确率,而仅使用标题的搜索效果相对较弱。分析强调,最优方法与既往研究结论一致,但相较于以往针对仓库文档的研究,该方法在期刊论文检索上表现出更优的性能。结合作者与标题信息的查询方法实现了最高的召回率与精确率。仅使用标题的搜索相比更全面的方法,召回率与精确率较低。文章检索的最优方法与既往研究一致,但在期刊论文场景下展现出提升的性能。

实验通过测试多种查询策略、评估国家层面的匹配完整度以及与 Scopus 对比引用计数,验证了 Microsoft Academic 的检索有效性。查询设计被证明至关重要,结合作者与标题信息的综合方法通常能实现最高的召回率与精确率,而简单的基于标题的方法在特定场景下仍具竞争力。检索完整度因地区差异显著,英语国家与出版物凭借语言与索引优势获得了明显更高的匹配率。最后,Microsoft Academic 的引用指标与 Scopus 高度一致,尽管不同领域间存在细微差异,但仍确立了该平台作为文献计量分析可靠替代方案的地位。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供