Deux en même temps : Amélioration des capacités d'apprentissage et de généralisation via le réseau IBN

Les réseaux de neurones convolutifs (CNNs) ont connu de grands succès dans de nombreux problèmes de vision par ordinateur. Contrairement aux travaux existants qui ont conçu des architectures de CNN pour améliorer les performances sur une seule tâche d'un seul domaine et qui ne sont pas généralisables, nous présentons IBN-Net, une nouvelle architecture convolutive qui renforce considérablement la capacité de modélisation d'un CNN sur un domaine (par exemple, Cityscapes) ainsi que sa capacité de généralisation sur un autre domaine (par exemple, GTA5) sans ajustement fin. IBN-Net intègre soigneusement la normalisation par instance (IN) et la normalisation par lot (BN) comme éléments de construction, et peut être incorporé dans de nombreux réseaux profonds avancés pour améliorer leurs performances. Ce travail comporte trois contributions clés : (1) En étudiant en profondeur l'IN et le BN, nous démontrons que l'IN apprend des caractéristiques invariantes aux changements d'apparence, tels que les couleurs, les styles et la virtualité/réalité, tandis que le BN est essentiel pour préserver les informations liées au contenu. (2) IBN-Net peut être appliqué à de nombreuses architectures profondes avancées, telles que DenseNet, ResNet, ResNeXt et SENet, et améliore constamment leurs performances sans augmenter le coût computationnel. (3) Lorsqu'on applique les réseaux entraînés à de nouveaux domaines, par exemple du passage de GTA5 à Cityscapes, IBN-Net obtient des améliorations comparables à celles des méthodes d'adaptation de domaine, même sans utiliser de données du domaine cible. Avec IBN-Net, nous avons remporté la première place sur le WAD 2018 Challenge Drivable Area track avec un mIoU de 86,18%.