6 个月前

摘要

基于监督学习并以端到端方式利用标注数据的方法，一直是分类问题的最先进范式。然而，这类方法在数据量较少的情况下，其泛化能力可能受到限制。在本研究中，我们通过结合可用的元数据，采用监督对比学习（supervised contrastive learning）来解决多个预训练任务，从而学习数据的高质量表征，以应对这一挑战。我们将该方法应用于呼吸音分类任务。该任务特别适合此框架，因为性别、年龄等人口统计学信息与肺部疾病的存在密切相关，若模型能隐式地编码此类信息，将更有利于异常检测。监督对比学习是一种学习机制，其目标是使属于同一类别的样本获得相似的表征，而不同类别的样本则获得差异化的表征。通过该范式训练得到的特征提取器，能够从数据中提取出具有判别性的特征。实验结果表明，该方法在两个不同数据集上的呼吸异常分类任务中，性能优于传统的交叉熵损失函数。此外，我们还发现，仅使用元数据（不依赖类别标签）进行表征学习，其性能可与仅使用类别标签的交叉熵方法相媲美。更进一步，当结合类别标签与元数据，采用一种扩展的监督对比学习框架（该框架额外引入对同性别、同年龄段患者进行分组的辅助任务）时，能够学习到更具信息量的特征表示。本研究揭示了在监督对比学习框架中融合多种元数据源的潜力，尤其在类别不平衡和数据稀缺的场景下具有重要意义。相关代码已开源，地址为：https://github.com/ilyassmoummad/scl_icbhi2017。

源 PDF