
摘要
近期的研究通过在单个基础网络内并行训练多个不同的子网络,实现了“免费集成”(ensembling for free)。其核心训练思想是:每个子网络仅负责对同时输入的多个样本中的某一个进行分类。然而,如何最优地融合这些多输入样本的问题至今尚未得到充分研究。本文提出一种名为 MixMo 的新型通用框架,用于学习多输入多输出的深度子网络。我们的核心动机在于,用更合适的混合机制取代先前方法中隐含的次优加和操作。为此,我们借鉴了在数据增强中表现优异的混合样本策略。实验表明,基于特征空间的二元混合——特别是采用 CutMix 中的矩形补丁进行混合——能够显著提升性能,使子网络更具判别能力且更加多样化。在 CIFAR-100 与 Tiny ImageNet 数据集上的图像分类任务中,我们的方法超越了现有最先进水平。所提出的模型实现简单,显著优于经过数据增强的深度集成模型,同时避免了推理和内存开销。由于我们直接在特征层面操作,并更充分地利用了大模型的表达能力,本工作开辟了一条与以往研究互补的新研究方向。