HyperAIHyperAI

Command Palette

Search for a command to run...

Shot2Story:多镜头视频全面理解的新基准

Mingfei Han extsuperscript2,3,5 extsuperscript† Linjie Yang extsuperscript1 extsuperscript† Xiaojun Chang extsuperscript3,4 Lina Yao extsuperscript5 Heng Wang extsuperscript1

摘要

一段视频片段可能包含多个事件的发展过程和一个引人入胜的故事线。人类需要捕捉每个镜头中的事件并将它们联系起来,以理解其背后的故事。在本研究中,我们提出了一种新的多镜头视频理解基准——Shot2Story,该基准提供了详细的镜头级字幕、全面的视频摘要以及问答对。为了促进对视频的更好语义理解,我们为视觉信号和人类叙述都提供了字幕。我们设计了几个不同的任务,包括单镜头视频字幕生成、多镜头视频摘要生成以及多镜头视频问答。初步实验表明,为多镜头视频生成长而全面的摘要存在一些挑战。然而,即使生成的摘要不够完美,它们已经在现有的视频理解任务(如视频问答)中取得了具有竞争力的表现,促进了详细摘要在未充分探索的视频理解领域的应用。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供