摘要
近年来,深度学习架构在图像分类任务中取得了卓越的成果。然而,在小规模数据集上应用复杂的神经网络架构仍然面临挑战。在此背景下,迁移学习成为应对这一问题的有前景方法。通常,现有的预训练模型采用固定的标准输入尺寸,这往往要求在预处理阶段对输入图像进行缩放和裁剪,从而导致信息丢失。此外,在现实场景中,图像的视觉特征呈现多尺度特性,而大多数主流方法并未充分考虑这一因素。本文提出一种基于迁移学习的新方法,旨在处理小规模数据集,并充分利用预训练模型从不同尺度提取的视觉特征。该方法基于图卷积网络(Graph Convolutional Networks, GCN),以表示图像在不同尺度下的图结构作为输入,图中节点的特征由预训练模型从不同尺度的常规图像块中提取得到。由于GCN能够处理节点数量不同的图结构,因此本方法可自然适应尺寸异构的图像,避免关键信息的丢失。我们在两个数据集上对所提方法进行了评估:一组地质图像数据集和一个公开可用的数据集,二者均具有挑战传统方法的特性。实验中,我们采用三种不同的预训练模型作为特征提取器:两种高效的预训练卷积神经网络(DenseNet 和 ResNeXt)以及一种视觉Transformer模型(CLIP)。将所提方法与两种传统的图像分类方法进行对比。实验结果表明,本方法在该任务上显著优于传统方法,展现出更优的分类性能。