
摘要
无监督解析,也称为语法诱导,旨在从原始文本中推断出句法结构。近年来,二进制表示在词汇和句法层面上展现出显著的信息保留能力。本文探讨了利用这一能力从原始文本中推导出解析树的可能性,仅依赖模型内部隐式诱导的语法。为此,我们将位级CKY算法从零阶升级到一阶,以在统一的二进制表示空间中编码词汇和句法,并在对比哈希框架下将训练模式从有监督转换为无监督,同时引入了一种新的损失函数来施加更强且平衡的对齐信号。我们的模型在多个数据集上表现出竞争力,因此我们声称该方法足以高效地从预训练语言模型中获取高质量的解析树,并且成本较低。