
摘要
当前的动作识别方法在模型训练时严重依赖剪辑过的视频。然而,获取大规模的剪辑视频数据集既昂贵又耗时。本文提出了一种新的弱监督架构,称为UntrimmedNet,该架构能够直接从未经剪辑的视频中学习动作识别模型,而无需动作实例的时间注释。我们的UntrimmedNet结合了两个重要组件:分类模块和选择模块,前者用于学习动作模型,后者用于推断动作实例的时间持续。这两个组件均通过前馈网络实现,因此UntrimmedNet是一种端到端可训练的架构。我们在THUMOS14和ActivityNet这两个未经剪辑的视频数据集上利用所学模型进行动作识别(WSR)和检测(WSD)。尽管我们的UntrimmedNet仅使用弱监督,但该方法在这两个数据集上的性能优于或可与强监督方法相媲美。