13 天前

基于检索系统的公共与私有数据推理

Simran Arora, Patrick Lewis, Angela Fan, Jacob Kahn, Christopher Ré
基于检索系统的公共与私有数据推理
摘要

用户和组织正从各种来源生成日益增长的私有数据。将私有数据纳入系统对于个性化开放域应用(如问答、事实核查和智能助手)至关重要。当前最先进的相关系统在生成答案前,会显式地从背景语料库中检索与用户问题相关的信息。然而,现有的检索系统通常假设语料库完全可访问,而用户往往无法或不愿将其私有数据暴露给托管公共数据的第三方机构。为此,我们首次提出了公共-私有自回归信息检索(PUBLIC-PRIVATE AUTOREGRESSIVE INFORMATION RETRIEVAL, PAIR)隐私框架,以应对多隐私层级下的新型检索场景。随后我们指出,现有文本基准测试无法充分支持PAIR的研究,因为它们均假设信息仅需从单一数据分布中检索。然而,公共数据与私有数据在本质上反映了不同的数据分布,这促使我们构建了ConcurrentQA——首个要求在多个数据分布上同时进行检索的文本问答基准测试。最后,我们发现,当现有系统应用于我们提出的检索场景时,面临显著的隐私与性能之间的权衡问题,并进一步探讨了缓解此类权衡的可行方法。

基于检索系统的公共与私有数据推理 | 最新论文 | HyperAI超神经