
摘要
基于监督学习并以端到端方式利用标注数据的方法,一直是分类问题的最先进范式。然而,这类方法在数据量较少的情况下,其泛化能力可能受到限制。在本研究中,我们通过结合可用的元数据,采用监督对比学习(supervised contrastive learning)来解决多个预训练任务,从而学习数据的高质量表征,以应对这一挑战。我们将该方法应用于呼吸音分类任务。该任务特别适合此框架,因为性别、年龄等人口统计学信息与肺部疾病的存在密切相关,若模型能隐式地编码此类信息,将更有利于异常检测。监督对比学习是一种学习机制,其目标是使属于同一类别的样本获得相似的表征,而不同类别的样本则获得差异化的表征。通过该范式训练得到的特征提取器,能够从数据中提取出具有判别性的特征。实验结果表明,该方法在两个不同数据集上的呼吸异常分类任务中,性能优于传统的交叉熵损失函数。此外,我们还发现,仅使用元数据(不依赖类别标签)进行表征学习,其性能可与仅使用类别标签的交叉熵方法相媲美。更进一步,当结合类别标签与元数据,采用一种扩展的监督对比学习框架(该框架额外引入对同性别、同年龄段患者进行分组的辅助任务)时,能够学习到更具信息量的特征表示。本研究揭示了在监督对比学习框架中融合多种元数据源的潜力,尤其在类别不平衡和数据稀缺的场景下具有重要意义。相关代码已开源,地址为:https://github.com/ilyassmoummad/scl_icbhi2017。