8 个月前

检索增强生成

Jiwan Chung Youngjae Yu

摘要

大型语言模型（如GPT-3）已经展示了在无需特定任务训练数据的情况下适应新任务的令人印象深刻的能力。这种能力在叙事问答等场景中尤为有效，尽管任务种类繁多，但可用的监督数据量却相对较小。在这项研究中，我们探讨了这些语言模型是否能够将其零样本推理能力扩展到多媒体内容（如戏剧、电影和动画）中的长篇多模态叙事，其中故事起着至关重要的作用。为此，我们提出了一种名为“Long Story Short”的框架，该框架首先将视频的叙事内容总结为简短的情节概述，然后搜索与问题相关联的视频片段。此外，我们还提出了通过CLIPCheck增强视觉匹配的方法。我们的模型在长视频问答方面大幅超越了最先进的监督模型，突显了零样本问答在长视频领域的潜力。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

检索增强生成

Jiwan Chung Youngjae Yu

摘要

大型语言模型（如GPT-3）已经展示了在无需特定任务训练数据的情况下适应新任务的令人印象深刻的能力。这种能力在叙事问答等场景中尤为有效，尽管任务种类繁多，但可用的监督数据量却相对较小。在这项研究中，我们探讨了这些语言模型是否能够将其零样本推理能力扩展到多媒体内容（如戏剧、电影和动画）中的长篇多模态叙事，其中故事起着至关重要的作用。为此，我们提出了一种名为“Long Story Short”的框架，该框架首先将视频的叙事内容总结为简短的情节概述，然后搜索与问题相关联的视频片段。此外，我们还提出了通过CLIPCheck增强视觉匹配的方法。我们的模型在长视频问答方面大幅超越了最先进的监督模型，突显了零样本问答在长视频领域的潜力。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供