
摘要
我们提出了一种无监督意见总结的方法,该方法将客户评论中的句子编码到一个分层的离散潜在空间中,然后根据这些编码的频率来识别常见的意见。通过解码这些频繁出现的编码,我们可以生成抽象性的总结;同时,通过选择分配给相同频繁编码的句子,我们也可以生成摘录性的总结。我们的方法具有可归因性,因为模型在总结过程中会识别用于生成总结的句子。由于聚合是在潜在空间中进行而非在长序列的标记上进行,因此该方法可以轻松扩展到数百条输入评论。此外,我们还展示了该方法能够实现一定程度的控制,即通过限制模型在对应所需方面(例如位置或食物)的编码空间部分来生成特定方面的总结。自动评估和人工评估在来自不同领域的两个数据集上的结果表明,我们的方法生成的总结比先前的工作更具信息量,并且更好地基于输入评论。