18 天前

MOMA-LRG:用于多对象多演员活动解析的语言精炼图

{Fei-Fei Li, Ehsan Adeli, Juan Carlos Niebles, Jiajun Wu, Lun Yu Li, Zhuoyi Huang, Emily Jin, Ruochen Liu, Wanze Xie, Linden Li, Zane Durante, Zelun Luo}
MOMA-LRG:用于多对象多演员活动解析的语言精炼图
摘要

视频-语言模型(Video-Language Models, VLMs)是基于互联网上大量但存在噪声的视频-文本配对数据进行预训练的大型模型,凭借其卓越的泛化能力与开放词汇(open-vocabulary)特性,极大地推动了行为识别领域的发展。然而,复杂的人类活动通常具有层次性和组合性特征,而当前大多数用于评估VLMs的任务仅聚焦于高层级的视频理解,难以准确评估和解析VLMs在理解复杂且细粒度人类活动方面的实际能力。受近期提出的MOMA框架启发,我们提出将活动图(activity graphs)作为人类活动的统一表征形式,该形式能够同时涵盖活动、子活动与原子动作三个层次的视频理解。在此基础上,我们将活动解析(activity parsing)重新定义为活动图生成这一综合性任务,要求模型在上述三个层次上均具备对人类活动的深入理解能力。为促进模型在活动解析任务上的评估,我们构建了MOMA-LRG(Multi-Object Multi-Actor Language-Refined Graphs)数据集——一个大规模、复杂的人类活动数据集,其包含结构化的活动图标注,并可轻松转换为自然语言句子,从而实现跨模态的可解释性分析。最后,我们提出一种模型无关且轻量级的方法,通过将活动图中的结构化知识融入VLMs,实现对VLMs的适配与评估,有效弥补了语言模型与图模型各自的局限性。实验表明,该方法在少样本活动解析任务中展现出优异性能。本框架旨在推动未来在视频、图结构与语言三者联合建模方向的研究发展。