
摘要
分布式意义表示是自然语言处理(NLP)中一种自然的方法,用于编码词语和短语之间的协方差关系。通过克服数据稀疏问题,并提供离散表示无法提供的语义相关性信息,分布式表示在许多NLP任务中证明了其有效性。近期的研究表明,组合语义表示可以成功应用于单语应用,如情感分析。与此同时,跨语言学习共享词汇级表示的工作也取得了一些初步的成功。我们结合这两种方法,提出了一种在多语言环境中学习分布式表示的方法。我们的模型能够在不需要词对齐的情况下,为对齐的句子分配相似的嵌入向量,而为未对齐的句子分配不同的嵌入向量。我们展示了这些表示具有丰富的语义信息,并将其应用于跨语言文档分类任务,在该任务中我们的表现优于先前的最先进水平。此外,通过使用多个语言对的平行语料库,我们发现模型能够学习到捕捉那些没有平行数据的语言之间的语义关系的表示。