17 天前

丰田智慧家庭:日常生活活动的真实世界场景

{ Gianpiero Francesca, Francois Bremond, Lorenzo Garattoni, Luca Minciullo, Michal Koperski, Rui Dai, Srijan Das}
丰田智慧家庭:日常生活活动的真实世界场景
摘要

深度神经网络的性能在很大程度上受到标注数据数量和质量的影响。目前大多数大规模动作识别数据集中的数据均来源于网络,无法真实反映日常生活中实际存在的挑战。本文提出一个面向日常生活活动的大规模真实世界视频数据集——丰田智能家居数据集(Toyota Smarthome)。该数据集包含31类日常活动的16,000段RGB+D视频片段,由老年人在智能家居环境中自然完成。与以往数据集不同,本数据集中的视频均为完全无脚本的自然录制,因此带来了多项挑战:类内差异显著、类别分布严重不均衡、包含简单与复合动作,以及运动模式相似但持续时间可变的活动。所有动作均采用粗粒度与细粒度双重标签进行标注。这些特性使丰田智能家居数据集在动作识别领域区别于现有其他数据集。由于当前主流的动作识别方法难以应对丰田智能家居数据集所提出的挑战,本文提出一种基于注意力机制的新型动作识别方法。我们设计了一种基于3D卷积神经网络(3D ConvNets)的姿态驱动时空注意力机制。实验结果表明,所提出的模型在多个基准数据集以及丰田智能家居数据集上均显著优于现有最先进方法。为促进相关研究,我们已将该数据集公开发布,供学术界研究使用。