You Only Look at Once für Echtzeit- und Generische Mehrfachaufgaben

Hohe Genauigkeit, geringes Gewicht und Echtzeit-Reaktionsfähigkeit sind drei wesentliche Anforderungen für die Implementierung autonomer Fahrzeuge. In dieser Studie integrieren wir A-YOLOM, ein anpassungsfähiges, zeitnahes und leichtgewichtiges Multi-Task-Modell, das gleichzeitig die Aufgaben der Objekterkennung, der fahrbaren Flächen-Segmentierung und der Fahrbahnlinien-Segmentierung lösen soll. Insbesondere entwickeln wir ein von Anfang bis Ende durchgeführtes Multi-Task-Modell mit einer vereinheitlichten und strukturierten Segmentierungsarchitektur. Wir führen einen lernbaren Parameter ein, der Merkmale zwischen dem Hals (neck) und dem Rumpf (backbone) in Segmentierungsaufgaben anpassungsfähig verbindet, wobei dieselbe Verlustfunktion für alle Segmentierungsaufgaben verwendet wird. Dies eliminiert die Notwendigkeit von Anpassungen und verbessert die Generalisierungsfähigkeiten des Modells. Zudem präsentieren wir einen Segmentierungshead, der ausschließlich aus einer Reihe von Faltungs-Layern besteht, was die Anzahl der Parameter und die Inferenzzeit reduziert. Wir erzielen vergleichbare Ergebnisse auf dem BDD100k-Datensatz, insbesondere in Bezug auf Visualisierungsresultate. Die Leistungsdaten zeigen einen mAP50 von 81,1 % für die Objekterkennung, einen mIoU von 91,0 % für die Segmentierung fahrbarer Flächen und einen IoU von 28,8 % für die Segmentierung von Fahrbahnlinien. Darüber hinaus führen wir reale Szenarien ein, um die Leistung unseres Modells in einem echten Umfeld zu bewerten, bei denen es deutlich besser abschneidet als seine Konkurrenten. Dies zeigt nicht nur, dass unser Modell eine vergleichbare Leistung aufweist, sondern auch flexibler und schneller ist als bestehende Multi-Task-Modelle. Die Quellcodes und vorab trainierten Modelle werden unter https://github.com/JiayuanWang-JW/YOLOv8-multi-task veröffentlicht.