8 天前
VLTinT:用于连贯视频段落描述的视觉-语言Transformer-in-Transformer
Kashu Yamazaki, Khoa Vo, Sang Truong, Bhiksha Raj, Ngan Le

摘要
视频段落描述(Video Paragraph Captioning)旨在为一段未剪辑的视频生成多句连贯的描述,涵盖其中多个时间事件的位置,并以叙事方式呈现。受人类感知过程的启发——即通过视觉与语言的相互作用,将场景分解为视觉成分(如人物、动物)与非视觉成分(如动作、关系),从而实现对场景的高效理解——我们首次提出一种视觉-语言(Visual-Linguistic, VL)特征表示。在所提出的VL特征中,场景通过三种模态进行建模:(i)全局视觉环境;(ii)局部视觉主体(主要参与者);(iii)语言化场景元素。随后,我们引入一种自回归的Transformer-in-Transformer(TinT)架构,以同时捕捉视频内部事件之间及事件之间的语义连贯性。最后,我们设计了一种新型的VL对比损失函数,以确保学习到的嵌入特征与文本描述在语义上保持一致。在ActivityNet Captions和YouCookII数据集上的大量实验与详尽的消融研究结果表明,所提出的视觉-语言Transformer-in-Transformer(VLTinT)模型在描述准确性和多样性方面均优于现有的最先进方法。项目源代码已公开发布于:https://github.com/UARK-AICV/VLTinT。