Eine umfassende Studie zu pre-trained Modellen von Torchvision für feinabgestimmte Inter-Spezies-Klassifikation

Diese Studie zielt darauf ab, verschiedene in der Torchvision-Bibliothek verfügbare vortrainierte Modelle zu untersuchen, die im Rahmen der PyTorch-Bibliothek integriert sind, und deren Wirksamkeit bei der Feinklassifizierung von Bildern zu evaluieren. Transfer Learning ist eine effektive Methode, um mit begrenzten Trainingsdaten hervorragende Leistung zu erzielen. In vielen realen Anwendungsszenarien ist es nicht möglich, ausreichend Daten zu sammeln, um ein tiefes neuronales Netzwerk effizient zu trainieren. Transfer Learning-Modelle sind auf großen Datensätzen vortrainiert und ermöglichen eine gute Leistung auch auf kleineren Datensätzen bei erheblich verkürzter Trainingszeit. Die Torchvision-Bibliothek bietet eine Vielzahl von Modellen, die zur Anwendung von Transfer Learning auf kleinere Datensätze genutzt werden können. Daher besteht ein Bedarf an einer Leitlinie zur Auswahl eines geeigneten Modells. Wir untersuchen vortrainierte Torchvision-Modelle an vier unterschiedlichen Datensätzen: 10 Monkey Species, 225 Bird Species, Fruits 360 und Oxford 102 Flowers. Diese Datensätze weisen Bilder unterschiedlicher Auflösung, Klassenanzahl und erreichbarer Genauigkeit auf. Zudem wenden wir sowohl die übliche vollständig verbundene Schicht als auch die Spinal vollständig verbundene Schicht an, um die Wirksamkeit von SpinalNet zu untersuchen. Die Spinal vollständig verbundene Schicht zeigt in den meisten Fällen eine bessere Leistung. Um eine faire Vergleichbarkeit zu gewährleisten, verwenden wir für alle Modelle denselben Datenaugmentierungsansatz für denselben Datensatz. Diese Arbeit kann zukünftigen Forschern im Bereich Computer Vision bei der Auswahl eines geeigneten Transfer Learning-Modells unterstützen.