摘要

本研究旨在探讨PyTorch库中Torchvision包所提供的多种预训练模型，并评估其在细粒度图像分类任务中的有效性。迁移学习是一种在训练数据有限的情况下实现优异性能的有效方法。在许多实际应用场景中，研究人员难以获取足够数量的数据以高效训练深度神经网络模型。而迁移学习模型通常在大规模数据集上预先训练完成，能够在较小数据集上实现良好性能，同时显著减少训练时间。Torchvision包提供了丰富的预训练模型，便于在小规模数据集上应用迁移学习。因此，研究者在选择合适的模型时可能需要一套科学的指导原则。本研究在四个不同数据集上对Torchvision中的预训练模型进行了系统评估：10种猴类物种（10 Monkey Species）、225种鸟类物种（225 Bird Species）、Fruits 360以及Oxford 102花卉数据集。这些数据集在图像分辨率、类别数量以及可达到的分类准确率方面均存在差异。此外，本研究还分别采用标准全连接层与Spinal全连接层，以验证SpinalNet结构的有效性。实验结果表明，在大多数情况下，Spinal全连接层能够带来更优的分类性能。为确保比较的公平性，同一数据集上不同模型均采用相同的图像增强策略。本研究为未来计算机视觉领域的研究人员在选择合适的迁移学习模型方面提供了有价值的参考依据。

源 PDF