
摘要
近年来,自然语言处理与计算机视觉等领域的进步依赖于结构复杂且规模庞大的模型,这些模型通常基于海量未标注或部分标注的数据进行训练。然而,将这些最先进的方法部署到资源受限的环境,仍是重大挑战。星系形态学对于理解星系形成与演化过程至关重要。在现代天文观测调查中,高效分类星系形态的方法对于提取物理信息具有重要意义。本文提出 Astroformer,一种能够在少量数据下实现高效学习的新方法。我们设计了一种融合 Transformer 与卷积神经网络的混合架构,其灵感主要来源于 CoAtNet 与 MaxViT 的成功经验。具体而言,我们采用一种新型的网络堆叠结构,提出一种改进的相对自注意力机制,并结合精心设计的数据增强与正则化策略。该方法在 Galaxy10 DECals 数据集上实现了星系形态预测的新基准性能,该科学任务包含 17,736 张标注图像,达到 94.86% 的 Top-1 准确率,较当前最优方法提升 4.62%。此外,该方法在 CIFAR-100 与 Tiny ImageNet 数据集上也取得了新的最优结果。值得注意的是,我们还发现:在大规模数据集上表现优异的模型架构与训练方法,在低数据场景下往往难以奏效,凸显了在小样本条件下进行针对性设计的重要性。