HyperAI超神经

近日，中国科学院软件研究所的科研团队提出了一种全新的小批量数据采样策略，旨在提升自监督学习模型在分布外数据上的泛化能力。自监督学习的目标是在面对与训练数据分布不同的测试数据时，仍能保持良好的性能。然而，现有模型在训练过程中往往受到一些与学习任务无关的不可观测变量的干扰，这些变量的语义信息会在某种程度上削弱模型的泛化能力。研究团队通过引入因果效应估计的方法，开发了这一创新的数据采样策略。具体来说，他们首先学习了一个隐变量模型，以估计在给定“锚点”样本的情况下，不可观测语义变量的后验概率分布。这个后验概率分布被称为平衡分数。接着，团队利用这些平衡分数，将具有相同或相近平衡分数的样本对划分到同一个批次中，确保每个批次内的不可观测语义变量与“锚点”样本是条件独立的。这种方法有助于模型避免学到虚假关联，而更专注于真正有用的特征，从而提升其在未知数据分布上的表现。为了验证这一策略的有效性，研究团队在多个基准数据集上进行了广泛实验。实验结果显示，仅仅通过替换批次生成机制，无需调整模型架构或超参数，这一采样策略就能显著提高主流自监督学习方法的性能。在ImageNet 100和ImageNet的分类任务中，新策略使模型的Top 1和Top 5准确率均超过了现有的最先进自监督方法；在半监督场景下的分类任务中，Top 1和Top 5准确率分别提高了超过3%和2%；在目标检测和实例分割任务中，各个指标的平均精度也获得了稳定提升；此外，在Omniglot、miniImageNet和CIFAR FS等少样本转移学习任务中，性能提升更是超过了5%。总体来看，这一策略不仅有效减少了虚假关联，还显著增强了模型的因果学习能力。这一研究成果已经被CCF-A类人工智能顶级学术会议——International Conference on Machine Learning（ICML-25）接收。业内人士认为，这项技术的突破将为自监督学习领域带来新的研究方向和实际应用价值，特别是在需要处理复杂、多样数据的场景中，如医疗图像分析、自动驾驶等。中国科学院软件研究所作为国内领先的科研机构，近年来在人工智能基础研究及应用方面取得了多项重要进展，不断推动着相关技术的发展和普及。

相关链接

相关链接

相关链接

当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

Command Palette

中科院软件所提出新策略：小批量数据采样提升自监督学习模型泛化能力

相关链接

Command Palette

中科院软件所提出新策略：小批量数据采样提升自监督学习模型泛化能力

相关链接

Command Palette

中科院软件所提出新策略：小批量数据采样提升自监督学习模型泛化能力

相关链接

当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化