HyperAIHyperAI
il y a 4 mois

Plus large ou plus profond : Revisiter le modèle ResNet pour la reconnaissance visuelle

Zifeng Wu; Chunhua Shen; Anton van den Hengel
Plus large ou plus profond : Revisiter le modèle ResNet pour la reconnaissance visuelle
Résumé

La tendance vers des réseaux neuronaux de plus en plus profonds a été motivée par l'observation générale que l'augmentation de la profondeur améliore les performances d'un réseau. Cependant, des preuves s'accumulent récemment montrant que l'augmentation simple de la profondeur peut ne pas être le meilleur moyen d'améliorer les performances, particulièrement en présence d'autres limitations. Les recherches sur les réseaux résiduels profonds ont également suggéré qu'ils pourraient ne pas fonctionner comme un seul réseau profond, mais plutôt comme un ensemble de nombreux réseaux relativement peu profonds. Nous examinons ces questions et, dans ce processus, nous arrivons à une nouvelle interprétation de la vue déroulée des réseaux résiduels profonds qui explique certains comportements observés expérimentalement. En conséquence, nous sommes capables de proposer une nouvelle architecture de réseaux résiduels moins profonde, qui surpasse significativement des modèles beaucoup plus profonds tels que ResNet-200 sur le jeu de données ImageNet pour la classification d'images. Nous montrons également que cette performance est transférable à d'autres domaines problématiques en développant une approche de segmentation sémantique qui dépasse l'état de l'art avec une marge remarquable sur des jeux de données tels que PASCAL VOC, PASCAL Context et Cityscapes. L'architecture que nous proposons surpasse donc ses comparateurs, y compris les très profonds ResNets, tout en étant plus efficace en termes d'utilisation mémoire et parfois aussi en termes de temps d'entraînement. Le code et les modèles sont disponibles à l'adresse suivante : https://github.com/itijyou/ademxapp