HyperAI超神经

摘要

长时段视频跨越了较长时间间隔，具有高度的信息冗余性，并包含多个通常关系较为松散的不同事件或实体。因此，在进行长时段视频问答（LVQA）时，生成正确答案所需的所有信息往往可以包含在一小部分关键帧中。近期的研究探索了大型语言模型（LLMs）在LVQA基准测试中的应用，取得了卓越的性能，但这些模型依赖视觉语言模型（VLMs）将视频中的所有视觉内容转换为自然语言。这种VLMs通常会独立地对从长视频中均匀采样的大量帧进行描述，这不仅效率低下，而且大部分内容是冗余的。针对这些决策选择，我们探讨了最优的关键帧选择策略，以显著减少这些冗余性，即分层关键帧选择器（Hierarchical Keyframe Selector）。我们提出的框架LVNet在三个基准LVQA数据集EgoSchema、NExT-QA和IntentQA上达到了最先进的性能，并且在VideoMME长达一小时的视频中也表现出色。我们的代码将公开发布。代码可以在https://github.com/jongwoopark7978/LVNet找到。

摘要

Jongwoo Park Kanchana Ranasinghe Kumara Kahatapitiya Wonjeong Ryu Donghyun Kim Michael S. Ryoo

摘要

用 AI 构建 AI

HyperAI Newsletters

Jongwoo Park Kanchana Ranasinghe Kumara Kahatapitiya Wonjeong Ryu Donghyun Kim Michael S. Ryoo

摘要

用 AI 构建 AI

HyperAI Newsletters

Jongwoo Park Kanchana Ranasinghe Kumara Kahatapitiya Wonjeong Ryu Donghyun Kim Michael S. Ryoo

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

帧过多，非全有用：长视频问答的有效策略

Jongwoo Park Kanchana Ranasinghe Kumara Kahatapitiya Wonjeong Ryu Donghyun Kim Michael S. Ryoo

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

帧过多，非全有用：长视频问答的有效策略

Jongwoo Park Kanchana Ranasinghe Kumara Kahatapitiya Wonjeong Ryu Donghyun Kim Michael S. Ryoo

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

帧过多，非全有用：长视频问答的有效策略

Jongwoo Park Kanchana Ranasinghe Kumara Kahatapitiya Wonjeong Ryu Donghyun Kim Michael S. Ryoo

摘要

用 AI 构建 AI

HyperAI Newsletters