HyperAIHyperAI
vor 17 Tagen

End-to-End-Lane-Erkennung mit One-to-Several-Transformer

Kunyang Zhou, Rui Zhou
End-to-End-Lane-Erkennung mit One-to-Several-Transformer
Abstract

Obwohl Lane-Detection-Methoden in realen Szenarien beeindruckende Leistung erzielt haben, erfordern die meisten Ansätze eine nachgeschaltete Verarbeitung, die nicht ausreichend robust ist. Daher wurden end-to-end-Detektoren wie der Detection Transformer (DETR) in der Lane-Detection eingeführt. Allerdings kann die ein-zu-eins-Zuweisung von Etiketten in DETR die Trainingseffizienz beeinträchtigen, da semantische Konflikte zwischen den Etiketten auftreten können. Zudem ist die Positionsabfrage in DETR nicht in der Lage, explizite räumliche Priorinformationen bereitzustellen, was die Optimierung erschwert. In dieser Arbeit präsentieren wir den One-to-Several Transformer (O2SFormer). Zunächst führen wir die ein-zu-mehrere-Zuweisung von Etiketten ein, die sowohl die ein-zu-viele- als auch die ein-zu-eins-Zuweisung kombiniert, um semantische Konflikte zu lösen, während die end-to-end-Detektion erhalten bleibt. Um die Schwierigkeiten bei der Optimierung der ein-zu-eins-Zuweisung zu überwinden, schlagen wir zudem eine schichtweise weiche Etikettengewichtung vor, die die positiven Gewichte der positiven Lane-Anker in verschiedenen Dekodierschichten dynamisch anpasst. Schließlich entwerfen wir eine dynamische, ankerbasierte Positionsabfrage, um räumliche Priorinformationen durch die Integration von Lane-Ankern in die Positionsabfrage zu erschließen. Experimentelle Ergebnisse zeigen, dass O2SFormer mit einem ResNet50-Backbone einen F1-Score von 77,83 % auf dem CULane-Datensatz erreicht und damit bestehende Transformer-basierte und CNN-basierte Detektoren übertrifft. Darüber hinaus konvergiert O2SFormer für den ResNet18-Backbone 12,5-mal schneller als DETR.