先进的深度学习模型在滚动轴承故障诊断任务中已展现出优于传统机器学习与信号处理技术的优异性能。近年来,少样本学习(few-shot learning)方法因其能够应对训练数据稀缺的问题而受到广泛关注。然而,当前主流的滚动轴承故障诊断模型多基于卷积神经网络(CNN),其侧重于捕捉输入数据的局部特征,难以充分建模全局上下文信息。此外,由于数据分布差异、故障类型多样、采集条件变化以及极端有限的样本量,故障信号的精确分类仍具挑战性,为该领域研究留下了广阔空间。为此,本研究提出一种新颖的端到端故障诊断方法,能够在人工故障与真实故障数据均极度有限的情况下实现有效诊断。具体而言,我们设计了一种用于从输入数据中自动提取特征的模块——多尺度大卷积核特征提取模块(multiscale large kernel feature extraction)。该模块能够捕捉不同尺度下的关键特征,增强模型对复杂故障模式的表征能力。提取的特征随后输入一个双分支网络结构,包含全局分支与局部分支。其中,全局分支采用基于Transformer架构的模型,引入交叉注意力机制(cross-attention),以有效建模全局上下文信息,并捕获查询集(query set)与支持集(support set)之间的关联性;局部分支则为基于度量学习的模型,利用马氏距离(Mahalanobis distance)对支持集中的局部特征进行有效分离与匹配。最终,两个分支的输出通过融合策略进行集成,以实现更准确的分类决策。我们在两个公开数据集(CWRU与PU)上开展了大量实验与消融研究。实验结果表明,所提方法在不同训练样本规模下均显著优于现有先进方法,无论在定性分析还是定量指标上均展现出优越性能。本研究提出的模型代码将公开发布于:https://github.com/HungVu307/Few-shot-via-ensembling-Transformer-with-Mahalanobis-distance,以促进该领域的进一步研究与发展。