2 个月前
HERMES:基于事件和语义的时序连贯长文本理解
Gueter Josmy Faure; Jia-Fong Yeh; Min-Hung Chen; Hung-Ting Su; Shang-Hong Lai; Winston H. Hsu

摘要
现有研究通常将长视频视为扩展的短视频,导致了若干局限性:无法充分捕捉长距离依赖关系、处理冗余信息效率低下以及未能提取高层次语义概念。为了解决这些问题,我们提出了一种新颖的方法,该方法更准确地反映了人类的认知过程。本文介绍了HERMES:基于时间连贯性的长视频理解模型(temporal-coHERent long-forM understanding with Episodes and Semantics),该模型通过模拟情景记忆积累来捕捉动作序列,并利用分散在整个视频中的语义知识对其进行强化。我们的工作做出了两项关键贡献:首先,我们开发了一种情景压缩器(Episodic COmpressor, ECO),能够高效地从微观到半宏观层面聚合重要表示,克服了长距离依赖关系的挑战。其次,我们提出了一个语义检索器(Semantics ReTRiever, SeTR),通过关注更广泛的上下文来增强这些聚合表示,并显著降低特征维度,同时保留相关的宏观信息。这解决了冗余问题和高层次概念提取不足的问题。大量实验表明,HERMES在零样本和全监督设置下,在多个长视频理解基准测试中均达到了最先进的性能。