6 个月前

自然语言处理

David Romero Thamar Solorio

摘要

我们提出了一种名为Q-ViD的视频问答（Video QA）简洁方法。与以往依赖复杂架构、计算开销大的流水线或封闭模型（如GPT系列）的方法不同，Q-ViD仅基于一个单一的指令感知型开源视觉语言模型（InstructBLIP），通过视频帧描述来完成视频问答任务。具体而言，我们设计了基于目标问题的图像描述指令提示（captioning instruction prompts），并利用InstructBLIP生成与任务相关的视频帧描述。随后，根据问题依赖的帧描述，构建整个视频的上下文描述，并将该描述信息与问答提示一同输入大型语言模型（LLM）。在此框架中，LLM作为推理模块，执行多选题问答的最终决策步骤。实验结果表明，该简洁的Q-ViD框架在多个多样化的视频问答基准测试（包括NExT-QA、STAR、How2QA、TVQA和IntentQA）上取得了与当前最先进模型相当甚至更优的性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

自然语言处理

David Romero Thamar Solorio

摘要

我们提出了一种名为Q-ViD的视频问答（Video QA）简洁方法。与以往依赖复杂架构、计算开销大的流水线或封闭模型（如GPT系列）的方法不同，Q-ViD仅基于一个单一的指令感知型开源视觉语言模型（InstructBLIP），通过视频帧描述来完成视频问答任务。具体而言，我们设计了基于目标问题的图像描述指令提示（captioning instruction prompts），并利用InstructBLIP生成与任务相关的视频帧描述。随后，根据问题依赖的帧描述，构建整个视频的上下文描述，并将该描述信息与问答提示一同输入大型语言模型（LLM）。在此框架中，LLM作为推理模块，执行多选题问答的最终决策步骤。实验结果表明，该简洁的Q-ViD框架在多个多样化的视频问答基准测试（包括NExT-QA、STAR、How2QA、TVQA和IntentQA）上取得了与当前最先进模型相当甚至更优的性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供