Lernen von leichtgewichtigen Lane-Detection-CNNs durch Selbst-Aufmerksamkeits-Verdichtung

Das Training tiefer Modelle für die Spurerkennung ist aufgrund der sehr subtilen und spärlichen Aufsichtssignale, die in den Spurannotierungen enthalten sind, herausfordernd. Ohne das Lernen aus einem viel reicheren Kontext scheitern diese Modelle oft in anspruchsvollen Szenarien, wie z.B. starken Verdeckungen, unklaren Spuren und schlechten Beleuchtungsbedingungen. In dieser Arbeit stellen wir einen neuen Ansatz des Wissensdistillierens vor, nämlich Self Attention Distillation (SAD), der es ermöglicht, dass ein Modell von sich selbst lernt und erhebliche Verbesserungen ohne zusätzliche Aufsicht oder Labels erzielt. Insbesondere beobachten wir, dass Aufmerksamkeitskarten, die aus einem Modell extrahiert werden, das auf einem angemessenen Niveau trainiert wurde, reichhaltige kontextuelle Informationen kodieren. Diese wertvollen kontextuellen Informationen können als eine Form von "freier" Aufsicht verwendet werden, um durch die Durchführung von top-down- und schichtweiser Aufmerksamkeitsdistillation innerhalb des Netzwerks selbst weiteres Repräsentationslernen zu fördern. SAD kann leicht in jedes feedforward Convolutional Neural Network (CNN) integriert werden und erhöht nicht die Inferenzzeit. Wir validieren SAD anhand dreier gängiger Benchmarks für Spurerkennung (TuSimple, CULane und BDD100K) unter Verwendung leichtgewichtiger Modelle wie ENet, ResNet-18 und ResNet-34. Das leichteste Modell, ENet-SAD, erreicht vergleichbare oder sogar bessere Ergebnisse als existierende Algorithmen. Bemerkenswert ist dabei, dass ENet-SAD 20-mal weniger Parameter hat und 10-mal schneller läuft als das state-of-the-art SCNN (Spatial CNN), während es gleichzeitig überzeugende Leistungen in allen Benchmarks erzielt. Unser Code ist unter https://github.com/cardwing/Codes-for-Lane-Detection verfügbar.