HyperAIHyperAI
il y a 18 jours

Graphes de caractéristiques basés sur des patchs multiscales pour la classification d'images

{Joel, Dennis; Carbonera, Luan; Balreira, Matheus; Garcia, Todescato}
Résumé

Les architectures d’apprentissage profond ont démontré des résultats remarquables dans la classification d’images au cours des dernières années. Toutefois, l’application d’architectures de réseaux neuronaux complexes sur des jeux de données de petite taille reste un défi. Dans ce contexte, l’apprentissage par transfert apparaît comme une approche prometteuse pour traiter cette situation. Généralement, les architectures pré-entraînées disponibles adoptent une entrée fixe standard, ce qui implique habituellement un redimensionnement et un découpage des images d’entrée pendant la phase de prétraitement, entraînant une perte d’information. Par ailleurs, dans les scénarios du monde réel, les images présentent des caractéristiques visuelles à différentes échelles, et la plupart des approches courantes ne tiennent pas compte de ce fait. Dans cet article, nous proposons une méthode qui applique l’apprentissage par transfert pour traiter les petits jeux de données tout en exploitant les caractéristiques visuelles extraites par des modèles pré-entraînés à différentes échelles. Notre approche repose sur des réseaux de convolution de graphes (GCN), qui prennent en entrée des graphes représentant les images à différentes échelles, les nœuds de ces graphes étant caractérisés par des fonctionnalités extraites à partir de patches d’images réguliers de différentes échelles à l’aide de modèles pré-entraînés. Étant donné que les GCN peuvent traiter des graphes comportant un nombre variable de nœuds, notre méthode peut naturellement gérer des images de tailles hétérogènes sans rejeter d’information pertinente. Nous avons évalué notre approche sur deux jeux de données : un ensemble d’images géologiques et un jeu de données publiquement disponible, tous deux présentant des caractéristiques qui défient les approches traditionnelles. Nous avons testé notre méthode en utilisant trois modèles pré-entraînés différents comme extracteurs de caractéristiques : deux modèles efficaces de réseaux de neurones convolutifs pré-entraînés (DenseNet et ResNeXt) ainsi qu’un transformateur visuel (CLIP). Nous avons comparé notre approche à deux méthodes conventionnelles pour la classification d’images. Les expériences montrent que notre méthode obtient de meilleurs résultats que les approches conventionnelles pour cette tâche.