在生物医学科研领域,文章中化学物质的识别受到广泛关注,因其在药物研发研究中具有重要意义。以往多数研究集中于PubMed摘要的分析,但进一步利用全文文档进行探索十分必要,因为全文包含更多有价值的信息有待挖掘。目前,研究人员通常依赖人工专家对文章进行医学主题词(MeSH)标引,以帮助其高效发现与其研究工作最相关的文献。为此,BioCreative VII NLM-Chem任务赛道推动了针对PubMed全文中文献中化学物质识别与标引系统的发展。该任务中的化学物质识别包括两个核心步骤:识别文本中的化学物质提及(chemical mentions),并将其映射至唯一的MeSH标识符。本文介绍了我们参与该任务所采用的系统方案,以及挑战赛结束后进行的优化改进。我们提出了一种三阶段处理流程,分别完成化学物质提及识别、实体归一化(normalization)与MeSH标引。在化学物质提及识别方面,我们采用基于深度学习的方法,利用PubMedBERT生成的上下文嵌入表示,后续接多层感知机(MLP)与条件随机场(CRF)标签层,以实现精确的命名实体识别。在归一化阶段,我们结合基于筛法的词典过滤策略与深度学习驱动的相似性搜索方法,提升实体匹配的准确性。针对标引任务,我们设计了规则系统,用于识别每篇文献中最相关的MeSH主题词编码。在挑战赛期间,尽管我们的化学物质提及识别性能相对较低,但在归一化与标引两个任务中均取得了官方评测的最佳成绩。赛后,我们通过引入额外技术进一步优化了命名实体识别模型,显著提升了整体性能。最终系统在化学物质识别、归一化与标引任务上的F1得分分别为0.8731、0.8275与0.4849。本研究的实验代码与完整处理流程已公开发布,便于复现与后续研究。数据库链接:https://github.com/bioinformatics-ua/biocreativeVII_track2