2 个月前
基于时间动态图的LSTM用于动作驱动的视频对象检测
Yuan Yuan; Xiaodan Liang; Xiaolong Wang; Dit-Yan Yeung; Abhinav Gupta

摘要
本文研究了一种弱监督物体检测框架。现有的大多数框架主要集中在使用静态图像来学习物体检测器。然而,这些检测器由于域迁移问题,通常无法很好地推广到视频中。因此,我们探讨了直接从日常活动的单调视频中学习这些检测器的方法。不同于使用边界框作为监督信息,我们探索了利用动作描述作为监督信息,因为它们相对容易收集。然而,一个常见的问题是,在全局动作描述中,未参与人类动作的感兴趣物体经常被遗漏,这被称为“标签缺失”。为了解决这一问题,我们提出了一种新颖的时间动态图长短期记忆网络(TD-Graph LSTM)。TD-Graph LSTM通过构建基于物体提案时间相关性的动态图,并覆盖整个视频,实现了全局时间推理。因此,每个单独帧中的标签缺失问题可以通过在整个视频中转移相关物体提案的知识而显著缓解。在大规模日常生活动作数据集(即Charades)上的广泛评估表明了我们所提出方法的优势。此外,我们还发布了Charades数据集中超过5,000帧的物体边界框注释。我们认为这些标注数据也将有助于未来基于视频的物体识别研究。