2 个月前

利用语义场景特征和多流卷积架构在基于上下文的方法中实现野外视频视觉情感识别

Ioannis Pikoulis; Panagiotis P. Filntisis; Petros Maragos
利用语义场景特征和多流卷积架构在基于上下文的方法中实现野外视频视觉情感识别
摘要

在本研究中,我们致力于解决野外视频中的视觉情感识别问题。传统的仅依赖身体和面部特征提取的方法,在由于头部/身体朝向、低分辨率和光照不足导致上述情感信息来源不可获取的情况下,往往难以准确预测情感。为了缓解这一问题,我们提出利用场景特性和属性作为视觉上下文,将其纳入一个更广泛的情感识别框架中。时间片段网络(Temporal Segment Networks, TSN)构成了我们所提出的模型的主干部分。除了RGB输入模态外,我们还采用了密集光流(Optical Flow),通过一种直观的多流方法来更有效地编码运动信息。此外,我们将注意力转向基于骨架的学习,并利用以动作为中心的数据预训练空间-时间图卷积网络(Spatial-Temporal Graph Convolutional Network, ST-GCN),用于情感识别任务。我们在具有挑战性的Body Language Dataset(BoLD)上进行了广泛的实验,验证了我们的方法优于现有方法;通过恰当地将所有上述模块整合到一个网络集成中,我们成功地大幅超越了之前最佳的已发表识别分数。