8 天前
COOT:用于视频-文本表征学习的协作式分层Transformer
Simon Ging, Mohammadreza Zolfaghari, Hamed Pirsiavash, Thomas Brox

摘要
许多现实世界的视频-文本任务涉及不同粒度层次,例如帧与词、片段与句子,或视频与段落,每一层次均具有独特的语义特征。本文提出一种协作式分层Transformer(Cooperative Hierarchical Transformer, COOT),旨在利用这种层次化结构信息,并建模不同粒度层次之间以及多模态之间的交互关系。该方法包含三个核心组件:一个注意力感知的特征聚合层,用于捕捉局部时间上下文信息(即层内交互,如片段内部);一个上下文Transformer模块,用于学习低层与高层语义之间的交互关系(即层间交互,如片段-视频、句子-段落);以及一种跨模态循环一致性损失,用于连接视频与文本模态。实验结果表明,该方法在多个基准测试上均达到或超过当前最优性能,同时模型参数量极少。相关代码已开源,可通过 https://github.com/gingsi/coot-videotext 获取。