4 个月前

大规模整体视频理解

Ali Diba; Mohsen Fayyaz; Vivek Sharma; Manohar Paluri; Jurgen Gall; Rainer Stiefelhagen; Luc Van Gool
大规模整体视频理解
摘要

近年来,视频识别领域通过丰富的注释基准得到了显著的发展。然而,研究仍然主要集中在人类动作或体育识别上——专注于一个高度特定的视频理解任务,从而在描述视频整体内容方面留下了一定的差距。为填补这一空白,我们提出了一个大规模的“综合视频理解数据集”(HVU)。HVU 按照语义分类法进行层次组织,关注多标签和多任务视频理解问题,涵盖动态场景中多个语义方面的识别。HVU 总共包含约 572,000 个视频,用于训练、验证和测试集的注释数量达到 900 万条,涉及 3142 个标签。HVU 涵盖了场景、对象、动作、事件、属性和概念等多个类别的语义方面,自然地捕捉了现实世界的情景。我们在三个具有挑战性的任务上展示了 HVU 的泛化能力:1) 视频分类;2) 视频字幕生成;3) 视频聚类任务。特别是在视频分类方面,我们引入了一种新的时空深度神经网络架构——“综合外观和时间网络”(HATNet),该架构通过融合 2D 和 3D 架构,并结合外观和时间线索的中间表示来构建。HATNet 关注多标签和多任务学习问题,并以端到端的方式进行训练。通过我们的实验,我们验证了综合表征学习是互补的,并且可以在许多实际应用中发挥关键作用。