Quelle Backbone Utiliser : Une Comparaison Spécifique au Domaine et Économique en Ressources pour la Vision par Ordinateur

Dans les applications actuelles de la vision par ordinateur, notamment pour la classification d'images, les architectures de base pré-entraînées sur de grands ensembles de données tels qu'ImageNet sont couramment utilisées comme extracteurs de caractéristiques. Malgré l'utilisation généralisée de ces réseaux neuronaux convolutifs (CNN) pré-entraînés, il existe encore un manque de compréhension concernant les performances des diverses architectures efficaces en termes de ressources dans différents domaines et tailles d'ensembles de données. Notre étude évalue systématiquement plusieurs CNNs légers et pré-entraînés sous des conditions d'entraînement cohérentes à travers une variété d'ensembles de données, incluant des images naturelles, des images médicales, des images galactiques et des images de télédétection. Cette analyse exhaustive vise à aider les praticiens du machine learning à choisir l'architecture de base la plus appropriée pour leur problème spécifique, en particulier dans les scénarios impliquant des petits ensembles de données où le réglage fin (fine-tuning) d'un réseau pré-entraîné est crucial. Bien que les architectures basées sur l'attention gagnent en popularité, nous avons constaté qu'elles ont tendance à performer moins bien dans les tâches de réglage fin avec peu de données comparativement aux CNNs. Nous avons également observé que certaines architectures CNN, telles que ConvNeXt, RegNet et EfficientNet, se distinguent par leurs performances supérieures sur un ensemble diversifié de domaines. Nos résultats fournissent des informations pratiques sur les compromis entre performance et efficacité des différentes architectures de base, facilitant ainsi une prise de décision éclairée lors du choix d'un modèle pour un large spectre de domaines en vision par ordinateur. Notre code est disponible ici : https://github.com/pranavphoenix/Backbones