il y a 17 jours

Détection robuste des voies grâce au pré-entraînement auto-par le biais d'autoencodeurs séquentiels masqués et au fine-tuning avec une PolyLoss personnalisée

Ruohan Li, Yongqi Dong

Résumé

La détection des lignes de chaussée est essentielle pour la localisation des véhicules, ce qui en fait la base du pilotage automatisé ainsi que de nombreux systèmes intelligents d’assistance à la conduite avancés. Les méthodes actuelles de détection des lignes basées sur la vision ne tirent pas pleinement parti des caractéristiques précieuses ni de l’information contextuelle globale, en particulier des relations inter-épistémiques entre les lignes de chaussée et d’autres régions des images au cours de séquences continues de trames. Pour combler cet écart de recherche et améliorer les performances de détection des lignes, ce papier propose un pipeline composé d’un pré-entraînement auto-supervisé à l’aide d’auto-encodeurs séquentiels masqués, suivi d’un fin-tuning avec une perte personnalisée PolyLoss, pour des modèles neuronaux end-to-end utilisant plusieurs trames continues. Les auto-encodeurs séquentiels masqués sont employés pour pré-entraîner les modèles neuronaux en visant la reconstruction des pixels manquants à partir d’images partiellement masquées. Ensuite, lors de la phase de fin-tuning de segmentation, où la détection des lignes est effectuée, les trames continues servent d’entrée, et les poids du modèle pré-entraîné sont transférés et affinés davantage via le mécanisme de rétropropagation, en utilisant une perte PolyLoss personnalisée pour calculer les erreurs pondérées entre les résultats de détection des lignes obtenus et les vérités terrain étiquetées. Les résultats expérimentaux étendus démontrent que, grâce à ce pipeline proposé, les performances du modèle de détection des lignes sur des scènes normales comme sur des scènes difficiles dépassent les états de l’art. Le modèle atteint ainsi la meilleure précision d’évaluation (98,38 %), le meilleur taux de précision (0,937) et la meilleure mesure F1 (0,924) sur l’ensemble de test des scènes normales, ainsi que la meilleure précision globale (98,36 %) et le meilleur taux de précision (0,844) sur l’ensemble de test des scènes difficiles, tout en réduisant significativement le temps d’entraînement.