6 个月前

检索增强生成

自然语言处理

Akhil Kedia Mohd Abbas Zaidi Haejun Lee

摘要

近年来，生成式模型在开放域问答任务中开始超越抽取式模型，主要得益于其解码器能够对多个编码后的文本片段进行注意力机制建模，并融合多段信息。然而，由于需要配备解码器，生成式模型通常参数量更大，在推理阶段因采用自回归解码与束搜索（beam search）而运行更慢，且生成结果常出现幻觉（hallucination）问题。为此，我们提出在Transformer编码器中引入跨多段文本的信息融合能力，通过全局表示实现跨样本所有token之间的交叉注意力机制。此外，我们还提出一种替代性的答案片段概率计算方法，以更有效地在所有样本的全局空间中聚合答案得分。基于所提方法，在Natural Questions数据集上，我们以仅25%的参数量和35%的推理延迟，取得了比当前最先进方法高出2.5点的Exact Match得分；在WebQuestions数据集上，Exact Match得分提升达4.4点。当结合合成数据增强技术时，我们在TriviaQA数据集上也超越了参数更大的模型。该方法在推理延迟与参数量方面的显著节省，使其在开放域问答这一通常计算密集型任务中具有突出的应用优势。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

检索增强生成

自然语言处理

Akhil Kedia Mohd Abbas Zaidi Haejun Lee

摘要

近年来，生成式模型在开放域问答任务中开始超越抽取式模型，主要得益于其解码器能够对多个编码后的文本片段进行注意力机制建模，并融合多段信息。然而，由于需要配备解码器，生成式模型通常参数量更大，在推理阶段因采用自回归解码与束搜索（beam search）而运行更慢，且生成结果常出现幻觉（hallucination）问题。为此，我们提出在Transformer编码器中引入跨多段文本的信息融合能力，通过全局表示实现跨样本所有token之间的交叉注意力机制。此外，我们还提出一种替代性的答案片段概率计算方法，以更有效地在所有样本的全局空间中聚合答案得分。基于所提方法，在Natural Questions数据集上，我们以仅25%的参数量和35%的推理延迟，取得了比当前最先进方法高出2.5点的Exact Match得分；在WebQuestions数据集上，Exact Match得分提升达4.4点。当结合合成数据增强技术时，我们在TriviaQA数据集上也超越了参数更大的模型。该方法在推理延迟与参数量方面的显著节省，使其在开放域问答这一通常计算密集型任务中具有突出的应用优势。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

FiE：通过在编码器中采用早期融合构建全局概率空间以实现开放域问答 | 论文 | HyperAI超神经