14 天前

突破汉字表征瓶颈:基于笔画序列建模的神经机器翻译

Zhijun Wang, Xuebo Liu, Min Zhang
突破汉字表征瓶颈:基于笔画序列建模的神经机器翻译
摘要

现有研究通常将汉字视为表征的最小单元。然而,这种汉字表征方式面临两大瓶颈:其一,学习瓶颈——模型无法充分利用汉字内部丰富的结构特征(如偏旁部首和笔画);其二,参数瓶颈——每个独立汉字都需要一个唯一的向量表示,导致参数量庞大。本文提出一种新颖的汉字表征方法——StrokeNet,旨在突破上述瓶颈。StrokeNet通过将汉字表示为拉丁化的笔画序列(例如,“ao1(凹)”映射为“ajaie”,“tu1(凸)”映射为“aeaqe”)来实现表征。具体而言,StrokeNet将每一笔画映射为特定的拉丁字符,从而使语义或结构相似的汉字具有相似的拉丁化表示。将StrokeNet引入神经机器翻译(NMT)系统后,许多此前难以应用于非拉丁语言的先进技术(如共享子词词汇学习、基于密文的数据增强等)得以有效实现。在广泛使用的NIST中文-英文、WMT17中文-英文以及IWSLT17日文-英文NMT任务上的实验表明,StrokeNet在参数更少的情况下显著超越了强基线模型,尤其在WMT17中文-英文任务上取得了26.5的BLEU分数,优于此前所有未使用单语数据的报道结果。相关代码与脚本已开源,地址为:https://github.com/zjwang21/StrokeNet。