Welches Backbone zu verwenden: Eine ressourcenschonende domänenspezifische Vergleichsstudie für Computer Vision

In modernen Anwendungen der Computer Vision, insbesondere bei der Bildklassifizierung, werden architektonische Backbones, die auf großen Datensätzen wie ImageNet vortrainiert wurden, häufig als Feature-Extractor eingesetzt. Trotz der weit verbreiteten Nutzung dieser vortrainierten Faltungsneuronalen Netze (CNNs) besteht weiterhin ein Wissenslücke hinsichtlich der Leistung verschiedener ressourcenschonender Backbones über verschiedene Domains und Datensatzgrößen hinweg. Unsere Studie bewertet systematisch mehrere leichtgewichtige, vortrainierte CNN-Backbones unter konsistenten Trainingsbedingungen auf einer Vielzahl von Datensätzen, darunter natürliche Bilder, medizinische Bilder, Galaxienbilder und Fernerkundungsbilder. Diese umfassende Analyse soll Maschinelles-Lernen-Praktikern helfen, den für ihr spezifisches Problem am besten geeigneten Backbone auszuwählen, insbesondere in Szenarien mit kleinen Datensätzen, wo das Feinjustieren eines vortrainierten Netzwerks entscheidend ist. Obwohl aufmerksamkeitsbasierte Architekturen an Popularität gewinnen, konnten wir beobachten, dass sie bei Aufgaben zur Feinjustierung mit geringem Datenumfang tendenziell schlechter abschneiden als CNNs. Wir stellten auch fest, dass einige CNN-Architekturen wie ConvNeXt, RegNet und EfficientNet im Vergleich zu anderen auf einem breiten Spektrum von Domains konsequent gut abschneiden. Unsere Ergebnisse liefern praxisrelevante Erkenntnisse zu den Leistungs-trade-offs und der Effektivität verschiedener Backbones und erleichtern somit fundierte Entscheidungen bei der Modellauswahl für einen breiten Bereich von Computer-Vision-Domains. Unser Code ist hier verfügbar: https://github.com/pranavphoenix/Backbones