
摘要
近年来,基于单模态的动作识别在RGB或深度序列上得到了广泛研究。普遍认为,这两种模态在动作识别任务中各有不同的优势和局限性。因此,对RGB+D视频的分析有助于我们更好地研究这两种模态的互补特性,并实现更高的性能水平。本文提出了一种新的基于深度自编码器的共享-特定特征分解网络,用于将输入的多模态信号分解为多层次的组件。进一步地,根据特征结构,提出了一种结构稀疏学习机,该机器利用混合范数在组件内部进行正则化,并在组件之间进行组选择,以提高分类性能。实验结果表明,我们的跨模态特征分析框架在五个具有挑战性的基准数据集上的动作分类准确性达到了现有最佳水平。