
摘要
本研究的目标是在未修剪视频中实现动作的细粒度分类,其中动作可能在时间上持续较长,也可能仅占据视频中的少数几帧。为此,我们提出了一种查询-响应机制,其中每个查询对应一个特定问题,并拥有独立的响应标签集。本文作出以下四项主要贡献:(I)我们提出了一种新型模型——时间查询网络(Temporal Query Network, TQN),该模型实现了查询-响应功能,并支持对细粒度动作的结构化理解。TQN通过时间注意力机制聚焦于与每个查询相关的视频片段,且仅需每个查询对应的标签即可进行端到端训练。(ii)我们提出了一种新的训练方法——随机特征库更新(stochastic feature bank update),使得网络能够在不同长度的视频上进行训练,并满足细粒度查询所需的密集采样需求。(iii)我们对TQN与其他主流网络架构及文本监督方法进行了系统比较,并深入分析了各类方法的优缺点。(iv)我们在FineGym和Diving48两个基准数据集上对所提方法进行了全面评估,结果表明,仅使用RGB图像特征即可在细粒度动作分类任务中超越当前最优水平。