6 个月前

计算机视觉

Sivaji Bandyopadhyay Thoudam Doren Singh Salam Michael Singh Loitongbam Sanayai Meetei Alok Singh

摘要

视频描述是一项极具挑战性但又极具吸引力的任务，因为它处于计算机视觉与自然语言生成的交叉领域。目前，基于注意力机制的模型在该任务中表现最佳。然而，这些模型普遍采用相似的处理流程，例如将视频分割为帧块，或以等间隔采样帧进行视觉编码。这种帧分割或等间隔采样方式会导致冗余视觉信息的编码，并引入额外的计算开销，因为视频通常由一系列相似帧组成，且不可避免地存在诸如光照不均、遮挡以及运动模糊等噪声问题。本文提出了一种基于边界的关键帧选择方法，用于视频描述任务。该方法能够从视频中选取一个紧凑的关键帧子集，有效编码视觉信息，并在此基础上生成视频描述，而不会造成显著性能下降。实验结果表明，该方法每视频仅需3至4帧，即可在两个基准数据集MSVD和MSR-VTT上实现具有竞争力的性能，且在英文和印地语两种语言下均表现优异。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Sivaji Bandyopadhyay Thoudam Doren Singh Salam Michael Singh Loitongbam Sanayai Meetei Alok Singh

摘要

视频描述是一项极具挑战性但又极具吸引力的任务，因为它处于计算机视觉与自然语言生成的交叉领域。目前，基于注意力机制的模型在该任务中表现最佳。然而，这些模型普遍采用相似的处理流程，例如将视频分割为帧块，或以等间隔采样帧进行视觉编码。这种帧分割或等间隔采样方式会导致冗余视觉信息的编码，并引入额外的计算开销，因为视频通常由一系列相似帧组成，且不可避免地存在诸如光照不均、遮挡以及运动模糊等噪声问题。本文提出了一种基于边界的关键帧选择方法，用于视频描述任务。该方法能够从视频中选取一个紧凑的关键帧子集，有效编码视觉信息，并在此基础上生成视频描述，而不会造成显著性能下降。实验结果表明，该方法每视频仅需3至4帧，即可在两个基准数据集MSVD和MSR-VTT上实现具有竞争力的性能，且在英文和印地语两种语言下均表现优异。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供