摘要
考虑到实例级的判别能力,对比学习方法(如MoCo和SimCLR)已被从原始图像表征学习任务迁移至自监督骨骼动作识别任务中。这类方法通常采用多数据流(即关节、运动和骨骼)进行集成学习,然而如何在单一流中构建具有判别性的特征空间,以及如何有效融合多流信息,仍是尚未解决的关键问题。为此,本文首次将一种新型对比学习方法——BYOL(Bootstrap Your Own Latent)应用于骨骼数据的学习,并据此提出SkeletonBYOL,作为自监督骨骼动作识别任务的一个简洁而有效的基线方法。受SkeletonBYOL的启发,本文进一步提出一种跨模型与跨流(Cross-Model and Cross-Stream, CMCS)框架。该框架融合了跨模型对抗学习(Cross-Model Adversarial Learning, CMAL)与跨流协同学习(Cross-Stream Collaborative Learning, CSCL)机制。具体而言,CMAL通过跨模型对抗损失来学习单流表征,以获取更具判别性的特征;为实现多流信息的有效融合与交互,CSCL通过生成集成学习的相似性伪标签作为监督信号,引导各单流的特征生成过程。在三个公开数据集上的大量实验验证了CMAL与CSCL之间的互补性,同时表明所提出的方法在多种评估协议下均优于现有最先进方法。