Apprentissage de CNNs légers pour la détection de voies par distillation d'attention auto-adaptative

L'entraînement de modèles profonds pour la détection des lignes de conduite est un défi en raison des signaux de supervision très subtils et épars inhérents aux annotations de lignes. Sans apprentissage à partir d'un contexte beaucoup plus riche, ces modèles échouent souvent dans des scénarios difficiles, par exemple, une occlusion sévère, des lignes ambiguës et des conditions d'éclairage médiocres. Dans cet article, nous présentons une nouvelle approche de distillation de connaissances, à savoir la Distillation d'Attention Auto (Self Attention Distillation, SAD), qui permet à un modèle d'apprendre de lui-même et d'obtenir une amélioration substantielle sans aucune supervision ou étiquetage supplémentaire. Plus précisément, nous constatons que les cartes d'attention extraites d'un modèle entraîné à un niveau raisonnable codent des informations contextuelles riches. Ces informations contextuelles précieuses peuvent être utilisées comme une forme de supervision « gratuite » pour l'apprentissage ultérieur des représentations en effectuant une distillation d'attention descendante et couche par couche au sein même du réseau. La SAD peut être facilement intégrée dans n'importe quel réseau neuronal convolutif (CNN) en avant-propagation et ne pas augmenter le temps d'inférence. Nous validons la SAD sur trois benchmarks populaires de détection des lignes de conduite (TuSimple, CULane et BDD100K) en utilisant des modèles légers tels qu'ENet, ResNet-18 et ResNet-34. Le modèle le plus léger, ENet-SAD, offre des performances comparables voire supérieures aux algorithmes existants. Notamment, ENet-SAD a 20 fois moins de paramètres et fonctionne 10 fois plus rapidement que le SCNN de pointe, tout en obtenant des performances convaincantes dans tous les benchmarks. Notre code est disponible sur https://github.com/cardwing/Codes-for-Lane-Detection.