HyperAIHyperAI

Command Palette

Search for a command to run...

1 个月前
Transformer

字节用对比学习实现跨语言名称检索

传统姓名匹配系统在处理跨语言、跨书写系统(如俄语“Владимир”与英语“Vladimir”)时往往失效,导致移民数据库和合规检查出现严重漏检。为解决这一难题,研究人员训练了一个基于原始 UTF-8 字节的轻量级 Transformer 模型,无需分词器或预训练骨架,即可实现跨脚本的语音姓名检索。该模型在 8 种非拉丁语系上取得了 0.775 的 MRR(平均倒数排名)和 0.897 的 R@10(前 10 个结果召回率),将拉丁与非拉丁查询之间的性能差距缩小了 10 倍。 构建大规模训练数据是成功的关键。团队利用 LLM 构建了一个四阶段流水线:从 Wikidata 中分层采样实体,生成英语名称的变体,再将其转写为阿拉伯语、中文、韩语等 8 种脚本,最终合并去重,生成了 467 万组正样本对。模型采用对比学习策略,利用 InfoNCE 损失函数和 ANCE 硬负采样机制,动态筛选语义相近的错误匹配作为训练样本,迫使模型区分发音相似但指代不同的人物。 实验表明,该方法显著优于传统的编辑距离、Soundex 及 BM25 算法。特别是在跨脚本场景下,传统方法的召回率接近于零,而新模型在不同脚本间保持了极高的一致性。尽管在中文和韩文等存在严重转写歧义的语种上表现仍有提升空间,但整体性能已非常稳健。此外,结合 HNSW 索引技术,系统在保持高召回率的同时大幅降低了查询延迟。该研究证明了字节级编码在消除词表限制方面的优势,以及利用大模型低成本生成合成数据解决低资源检索任务的可行性。相关代码与数据集已开源。

相关链接

字节用对比学习实现跨语言名称检索 | 热门资讯 | HyperAI超神经