2 个月前

利用单语数据进行跨语言组合词表示

Hubert Soyer; Pontus Stenetorp; Akiko Aizawa
利用单语数据进行跨语言组合词表示
摘要

在本研究中,我们提出了一种基于神经网络的新型架构,用于生成组合式跨语言词表示。与先前提出的方法不同,我们的方法满足以下三个标准:它约束词级表示具有组合性;能够利用双语和单语数据;并且可以扩展到大型词汇表和大量数据。我们方法的关键组件被称为单语包含准则(monolingual inclusion criterion),该准则利用了短语与其子短语在语义上比与其他随机采样的短语更为紧密相关的观察结果。我们在一个已建立的跨语言文档分类任务上评估了我们的方法,并取得了与之前最先进方法相当或显著改进的结果。具体而言,我们的方法在英语到德语和德语到英语的子任务中分别达到了92.7%和84.4%的准确率。前者将最先进水平提高了0.9个百分点的准确率,后者则在绝对准确率上比之前的最先进水平提高了7.7个百分点,并且错误率减少了33.0%。

利用单语数据进行跨语言组合词表示 | 最新论文 | HyperAI超神经