
摘要
基于查询的开放域自然语言处理任务需要从长且多样化的网络搜索结果中进行信息综合。现有方法通常采用诸如TF-IDF排序等技术,从网络文本中抽取部分片段作为序列到序列(Sequence-to-Sequence)模型的输入。我们提出为每个查询构建一个局部图结构的知识库,以压缩网络搜索信息并减少冗余。我们证明,通过将该图线性化为结构化的输入序列,模型能够在标准的序列到序列框架内有效编码图结构表示。在两项输入文本极长的生成式任务——长文本问答与多文档摘要中,将图结构表示作为输入,其性能优于直接使用检索到的文本片段。