
摘要
我们介绍了UCF101,这是目前最大的人类动作数据集。该数据集包含101个动作类别,超过13,000段视频片段和27小时的视频数据。数据库中的视频均为用户上传的真实场景视频,包含摄像机运动和杂乱背景。此外,我们提供了基于标准词袋模型(bag of words)在这一新数据集上的基准动作识别结果,总体性能为44.5%。据我们所知,由于其类别数量庞大、片段数量众多以及这些片段的无约束性质,UCF101目前是最具挑战性的动作数据集。
我们介绍了UCF101,这是目前最大的人类动作数据集。该数据集包含101个动作类别,超过13,000段视频片段和27小时的视频数据。数据库中的视频均为用户上传的真实场景视频,包含摄像机运动和杂乱背景。此外,我们提供了基于标准词袋模型(bag of words)在这一新数据集上的基准动作识别结果,总体性能为44.5%。据我们所知,由于其类别数量庞大、片段数量众多以及这些片段的无约束性质,UCF101目前是最具挑战性的动作数据集。