17 天前

基于核心集的CNN与Transformer的高效数据训练:稳定性视角

Animesh Gupta, Irtiza Hasan, Dilip K. Prasad, Deepak K. Gupta
基于核心集的CNN与Transformer的高效数据训练:稳定性视角
摘要

核心集(coreset)选择是减少卷积神经网络(CNN)训练时间最为有效的方法之一,然而,目前对于模型在核心集规模变化、数据集选择及模型架构差异下的行为表现仍知之甚少。此外,随着近期深度学习范式向基于Transformer的模型转变,核心集选择对这类模型性能的影响仍是一个开放性问题。为了推动核心集选择方法的广泛应用,尚有许多类似的关键问题亟待解答。本文旨在回答其中部分问题。我们构建了一个系统化的基准测试框架,并对CNN与Transformer模型上的多种核心集选择方法进行了严谨的对比分析。我们的研究发现,在某些情况下,随机选择子集反而比当前最先进的选择方法更具鲁棒性和稳定性。我们进一步表明,传统的在各类别间均匀采样的策略并不适合作为通用准则;相反,样本应根据每类数据分布的复杂程度进行自适应选择。值得注意的是,Transformer模型通常在大规模数据集上进行预训练,我们发现对于某些目标数据集,即使在极小的核心集规模下,保持其性能稳定也具有可行性。然而,当缺乏预训练,或在使用预训练Transformer模型处理非自然图像(如医学图像)时,CNN在极小核心集规模下仍表现出更强的泛化能力。最后,我们揭示,在缺乏合适预训练的情况下,CNN在学习图像中空间上相距较远对象之间的语义一致性方面表现更优,因此在几乎所有核心集规模下,其性能均优于Transformer模型。