HyperAI

传统姓名匹配系统在处理跨语言、跨书写系统（如俄语“Владимир”与英语“Vladimir”）时往往失效，导致移民数据库和合规检查出现严重漏检。为解决这一难题，研究人员训练了一个基于原始 UTF-8 字节的轻量级 Transformer 模型，无需分词器或预训练骨架，即可实现跨脚本的语音姓名检索。该模型在 8 种非拉丁语系上取得了 0.775 的 MRR（平均倒数排名）和 0.897 的 R@10（前 10 个结果召回率），将拉丁与非拉丁查询之间的性能差距缩小了 10 倍。构建大规模训练数据是成功的关键。团队利用 LLM 构建了一个四阶段流水线：从 Wikidata 中分层采样实体，生成英语名称的变体，再将其转写为阿拉伯语、中文、韩语等 8 种脚本，最终合并去重，生成了 467 万组正样本对。模型采用对比学习策略，利用 InfoNCE 损失函数和 ANCE 硬负采样机制，动态筛选语义相近的错误匹配作为训练样本，迫使模型区分发音相似但指代不同的人物。实验表明，该方法显著优于传统的编辑距离、Soundex 及 BM25 算法。特别是在跨脚本场景下，传统方法的召回率接近于零，而新模型在不同脚本间保持了极高的一致性。尽管在中文和韩文等存在严重转写歧义的语种上表现仍有提升空间，但整体性能已非常稳健。此外，结合 HNSW 索引技术，系统在保持高召回率的同时大幅降低了查询延迟。该研究证明了字节级编码在消除词表限制方面的优势，以及利用大模型低成本生成合成数据解决低资源检索任务的可行性。相关代码与数据集已开源。

相关链接

相关链接

相关链接

30 分钟整合 550 篇文献，生物学多智能体 Robin 跑通自主科研闭环，挖掘 dAMD 候选疗法

30 分钟整合 550 篇文献，生物学多智能体 Robin 跑通自主科研闭环，挖掘 dAMD 候选疗法

Command Palette

字节用对比学习实现跨语言名称检索

相关链接

Command Palette

字节用对比学习实现跨语言名称检索

相关链接

Command Palette

字节用对比学习实现跨语言名称检索

相关链接

30 分钟整合 550 篇文献，生物学多智能体 Robin 跑通自主科研闭环，挖掘 dAMD 候选疗法

30 分钟整合 550 篇文献，生物学多智能体 Robin 跑通自主科研闭环，挖掘 dAMD 候选疗法