6 个月前

检索增强生成

Simran Arora Patrick Lewis Angela Fan Jacob Kahn Christopher Ré

摘要

用户和组织正从各种来源生成日益增长的私有数据。将私有数据纳入系统对于个性化开放域应用（如问答、事实核查和智能助手）至关重要。当前最先进的相关系统在生成答案前，会显式地从背景语料库中检索与用户问题相关的信息。然而，现有的检索系统通常假设语料库完全可访问，而用户往往无法或不愿将其私有数据暴露给托管公共数据的第三方机构。为此，我们首次提出了公共-私有自回归信息检索（PUBLIC-PRIVATE AUTOREGRESSIVE INFORMATION RETRIEVAL, PAIR）隐私框架，以应对多隐私层级下的新型检索场景。随后我们指出，现有文本基准测试无法充分支持PAIR的研究，因为它们均假设信息仅需从单一数据分布中检索。然而，公共数据与私有数据在本质上反映了不同的数据分布，这促使我们构建了ConcurrentQA——首个要求在多个数据分布上同时进行检索的文本问答基准测试。最后，我们发现，当现有系统应用于我们提出的检索场景时，面临显著的隐私与性能之间的权衡问题，并进一步探讨了缓解此类权衡的可行方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

检索增强生成

Simran Arora Patrick Lewis Angela Fan Jacob Kahn Christopher Ré

摘要

用户和组织正从各种来源生成日益增长的私有数据。将私有数据纳入系统对于个性化开放域应用（如问答、事实核查和智能助手）至关重要。当前最先进的相关系统在生成答案前，会显式地从背景语料库中检索与用户问题相关的信息。然而，现有的检索系统通常假设语料库完全可访问，而用户往往无法或不愿将其私有数据暴露给托管公共数据的第三方机构。为此，我们首次提出了公共-私有自回归信息检索（PUBLIC-PRIVATE AUTOREGRESSIVE INFORMATION RETRIEVAL, PAIR）隐私框架，以应对多隐私层级下的新型检索场景。随后我们指出，现有文本基准测试无法充分支持PAIR的研究，因为它们均假设信息仅需从单一数据分布中检索。然而，公共数据与私有数据在本质上反映了不同的数据分布，这促使我们构建了ConcurrentQA——首个要求在多个数据分布上同时进行检索的文本问答基准测试。最后，我们发现，当现有系统应用于我们提出的检索场景时，面临显著的隐私与性能之间的权衡问题，并进一步探讨了缓解此类权衡的可行方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供