HybridNets: End-to-End Wahrnehmungsnetzwerk

Das End-to-End-Netzwerk hat in der Mehrfachverarbeitung zunehmend an Bedeutung gewonnen. Ein prominentes Beispiel hierfür ist die wachsende Bedeutung eines Fahrzeugwahrnehmungssystems im autonomen Fahren. Diese Arbeit untersucht systematisch ein End-to-End-Wahrnehmungsnetzwerk für Mehrfachverarbeitung und schlägt mehrere wesentliche Optimierungen vor, um die Genauigkeit zu verbessern. Erstens propose die Arbeit effiziente Segmentierungsköpfe und Box/Klasse-Vorhersagenetze basierend auf einem gewichteten bidirektionalen Merkmalsnetzwerk (weighted bidirectional feature network). Zweitens schlägt die Arbeit automatisch angepasste Anker (automatically customized anchor) für jede Ebene im gewichteten bidirektionalen Merkmalsnetzwerk vor. Drittens wird eine effiziente Trainingsverlustfunktion und eine Trainingsstrategie vorgeschlagen, um das Netzwerk auszugleichen und zu optimieren. Auf Basis dieser Optimierungen haben wir ein End-to-End-Wahrnehmungsnetzwerk entwickelt, das Mehrfachverarbeitungsaufgaben durchführt, darunter die Erkennung von Verkehrobjekten, die Segmentierung von fahrbaren Bereichen und die Erkennung von Fahrbahnen gleichzeitig. Dieses Netzwerk wurde HybridNets genannt und erreicht eine höhere Genauigkeit als frühere Arbeiten. Insbesondere erreicht HybridNets einen mittleren Durchschnittswert der Präzision von 77,3 % im Berkeley DeepDrive-Datensatz, übertreffen bei der Fahrbahn-Erkennung einen mittleren Schnitt über den Überschneidungsquotienten (mean Intersection Over Union) von 31,6 % mit 12,83 Millionen Parametern und 15,6 Milliarden Gleitkommaoperationen. Darüber hinaus kann es visuelle Wahrnehmungsaufgaben in Echtzeit durchführen und ist daher eine praktische und genaue Lösung für das Problem der Mehrfachverarbeitung. Der Quellcode ist unter https://github.com/datvuthanh/HybridNets verfügbar.