8 个月前

计算机视觉

Gueter Josmy Faure¹ Jia-Fong Yeh¹ Min-Hung Chen² Hung-Ting Su¹ Shang-Hong Lai⁴ Winston H. Hsu¹

摘要

现有研究通常将长视频视为扩展的短视频，导致了若干局限性：无法充分捕捉长距离依赖关系、处理冗余信息效率低下以及未能提取高层次语义概念。为了解决这些问题，我们提出了一种新颖的方法，该方法更准确地反映了人类的认知过程。本文介绍了HERMES：基于时间连贯性的长视频理解模型（temporal-coHERent long-forM understanding with Episodes and Semantics），该模型通过模拟情景记忆积累来捕捉动作序列，并利用分散在整个视频中的语义知识对其进行强化。我们的工作做出了两项关键贡献：首先，我们开发了一种情景压缩器（Episodic COmpressor, ECO），能够高效地从微观到半宏观层面聚合重要表示，克服了长距离依赖关系的挑战。其次，我们提出了一个语义检索器（Semantics ReTRiever, SeTR），通过关注更广泛的上下文来增强这些聚合表示，并显著降低特征维度，同时保留相关的宏观信息。这解决了冗余问题和高层次概念提取不足的问题。大量实验表明，HERMES在零样本和全监督设置下，在多个长视频理解基准测试中均达到了最先进的性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

Gueter Josmy Faure¹ Jia-Fong Yeh¹ Min-Hung Chen² Hung-Ting Su¹ Shang-Hong Lai⁴ Winston H. Hsu¹

摘要

现有研究通常将长视频视为扩展的短视频，导致了若干局限性：无法充分捕捉长距离依赖关系、处理冗余信息效率低下以及未能提取高层次语义概念。为了解决这些问题，我们提出了一种新颖的方法，该方法更准确地反映了人类的认知过程。本文介绍了HERMES：基于时间连贯性的长视频理解模型（temporal-coHERent long-forM understanding with Episodes and Semantics），该模型通过模拟情景记忆积累来捕捉动作序列，并利用分散在整个视频中的语义知识对其进行强化。我们的工作做出了两项关键贡献：首先，我们开发了一种情景压缩器（Episodic COmpressor, ECO），能够高效地从微观到半宏观层面聚合重要表示，克服了长距离依赖关系的挑战。其次，我们提出了一个语义检索器（Semantics ReTRiever, SeTR），通过关注更广泛的上下文来增强这些聚合表示，并显著降低特征维度，同时保留相关的宏观信息。这解决了冗余问题和高层次概念提取不足的问题。大量实验表明，HERMES在零样本和全监督设置下，在多个长视频理解基准测试中均达到了最先进的性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供