Robuste Spurverfolgung durch selbstprätrainiertes Lernen mit maskierten sequenziellen Autoencodern und Feinabstimmung mit maßgeschneidertem PolyLoss

Die Spurserkennung ist entscheidend für die Lokalisierung von Fahrzeugen und bildet somit die Grundlage für automatisiertes Fahren sowie zahlreiche intelligente und fortschrittliche Fahrerassistenzsysteme. Bestehende visionbasierte Methoden zur Spurserkennung nutzen die wertvollen Merkmale und aggregierten kontextuellen Informationen nicht ausreichend aus, insbesondere die wechselseitigen Beziehungen zwischen Spurstrichen und anderen Bildbereichen über aufeinanderfolgende Bildframes hinweg. Um diese Forschungslücke zu schließen und die Leistung der Spurserkennung zu verbessern, wird in diesem Artikel ein Pipeline-Ansatz vorgestellt, bestehend aus einem selbstprätrainierten Modell mittels maskierter sequenzieller Autoencoder und einer nachfolgenden Feinabstimmung mit einem maßgeschneiderten PolyLoss für end-to-end neuronale Netzwerke, die mehrere aufeinanderfolgende Bildframes nutzen. Die maskierten sequenziellen Autoencoder werden eingesetzt, um die neuronalen Netzwerke durch die Rekonstruktion fehlender Pixel aus zufällig maskierten Bildern vorzu-Trainieren. Anschließend wird im Feinabstimmungssegmentierungsphase, in der die Spursegmentierung durchgeführt wird, eine Folge von Bildframes als Eingabe verwendet, wobei die bereits vortrainierten Modellgewichte übertragen und mithilfe des Rückpropagationsmechanismus weiter angepasst werden, wobei der maßgeschneiderte PolyLoss zur Berechnung gewichteter Fehler zwischen den vorhergesagten Spurerkennungsergebnissen und den annotierten Ground-Truth-Daten herangezogen wird. Ausführliche experimentelle Ergebnisse zeigen, dass mit dem vorgeschlagenen Ansatz die Leistung des Spurerkennungsmodells sowohl in normalen als auch in anspruchsvollen Szenarien über den aktuellen Stand der Technik hinaus verbessert werden kann. Das Modell erreicht dabei die höchste Testgenauigkeit (98,38 %), Präzision (0,937) und F1-Maß (0,924) auf dem Testset für normale Szenarien sowie die beste Gesamtgenauigkeit (98,36 %) und Präzision (0,844) im Testset für anspruchsvolle Szenarien, wobei gleichzeitig die Trainingszeit erheblich verkürzt werden kann.