
摘要
表征学习已成为从符号数据(如文本和图)中进行学习的一种不可或缺的方法。然而,尽管复杂的符号数据集通常表现出潜在的层次结构,现有的先进方法大多在欧几里得向量空间中学习嵌入,这无法反映这一特性。为此,我们提出了一种新的方法,通过将符号数据嵌入到双曲空间——更具体地说是n维庞加莱球(Poincaré ball)中来学习其层次表征。由于底层的双曲几何结构,这种方法能够同时捕捉层次关系和相似性,从而以简约的方式表示符号数据。我们引入了一种基于黎曼优化的有效算法来学习这些嵌入,并通过实验展示了庞加莱嵌入在具有潜在层次结构的数据上显著优于欧几里得嵌入,无论是在表征能力还是泛化能力方面。