Xception : Apprentissage profond avec des convolutions séparables en profondeur

Nous présentons une interprétation des modules Inception dans les réseaux de neurones convolutifs comme étant une étape intermédiaire entre la convolution régulière et l'opération de convolution séparable en profondeur (une convolution en profondeur suivie d'une convolution ponctuelle). À cette lumière, une convolution séparable en profondeur peut être comprise comme un module Inception avec un nombre maximal de tours. Cette observation nous amène à proposer une nouvelle architecture de réseau neuronal convolutif profond inspirée par Inception, où les modules Inception ont été remplacés par des convolutions séparables en profondeur. Nous montrons que cette architecture, baptisée Xception, surpasse légèrement Inception V3 sur le jeu de données ImageNet (pour lequel Inception V3 a été conçu) et surpasse significativement Inception V3 sur un jeu de données plus important d'images pour la classification comprenant 350 millions d'images et 17 000 classes. Comme l'architecture Xception possède le même nombre de paramètres qu'Inception V3, les gains de performance ne sont pas dus à une capacité accrue mais plutôt à une utilisation plus efficace des paramètres du modèle.