8 天前
基于RGB-D的运动识别中的时空表征解耦与再耦合
Benjia Zhou, Pichao Wang, Jun Wan, Yanyan Liang, Fan Wang, Du Zhang, Zhen Lei, Hao Li, Rong Jin

摘要
时空表征解耦是指将空间与时间特征分解为相互独立的维度因子。尽管先前基于RGB-D的运动识别方法通过紧密耦合的多模态时空表征取得了令人瞩目的性能,但仍存在以下问题:(i) 在小样本设置下,由于时空特征高度纠缠建模,导致优化困难;(ii) 存在信息冗余,通常包含大量与分类任务关联较弱的边缘信息;(iii) 多模态时空信息之间的交互不足,主要源于晚期融合机制的局限性。为缓解上述缺陷,本文提出一种用于RGB-D运动识别的时空表征解耦与再耦合方法。具体而言,我们将学习时空表征的任务分解为三个子任务:(1) 通过解耦的空间与时间建模网络,学习高质量且维度独立的特征;(2) 对解耦后的表征进行再耦合,以建立更强的时空依赖关系;(3) 引入跨模态自适应后验融合(Cross-modal Adaptive Posterior Fusion, CAPF)机制,有效捕获RGB-D数据中的跨模态时空信息。上述创新设计的无缝融合,构建出鲁棒的时空表征,在四个公开的运动识别数据集上均取得了优于当前最先进方法的性能。项目代码已开源,地址为:https://github.com/damo-cv/MotionRGBD。