RepVF: Eine einheitliche Vektorfeld-Darstellung für die mehrfache 3D-Wahrnehmung

Die gleichzeitige Verarbeitung mehrerer autonomen Fahrzeug-3D-Wahrnehmungsaufgaben innerhalb derselben räumlich-zeitlichen Szene stellt eine erhebliche Herausforderung dar, insbesondere aufgrund der rechnerischen Ineffizienzen und der Merkmalskonkurrenz zwischen den Aufgaben bei der Verwendung traditioneller Mehrfachaufgaben-Lernverfahren. Dieses Papier greift diese Probleme auf, indem es eine neuartige einheitliche Darstellung, RepVF, vorschlägt, die die Darstellung verschiedener Wahrnehmungsaufgaben wie 3D-Objekterkennung und 3D-Spurerkennung in einem einzigen Framework vereint. RepVF charakterisiert die Struktur verschiedener Ziele in der Szene durch ein Vektorfeld, was es ermöglicht, ein Modell mit einem einzelnen Ausgabekopf (single-head) für Mehrfachaufgaben-Lernen zu verwenden, das erhebliche rechnerische Redundanzen und Merkmalskonkurrenzen reduziert. Aufbauend auf RepVF stellen wir RFTR vor, ein Netzwerk, das darauf ausgelegt ist, die inhärenten Zusammenhänge zwischen verschiedenen Aufgaben durch die Nutzung einer hierarchischen Struktur von Abfragen zu nutzen, die Beziehungen sowohl zwischen als auch innerhalb der Aufgaben implizit modelliert. Dieser Ansatz eliminiert die Notwendigkeit von aufgabenspezifischen Ausgabeköpfen und Parametern und reduziert grundlegend die Konflikte, die in traditionellen Mehrfachaufgaben-Lernparadigmen bestehen. Wir validieren unseren Ansatz, indem wir Labels aus dem OpenLane-Datensatz mit dem Waymo Open-Datensatz kombinieren. Unsere Arbeit stellt einen bedeutenden Fortschritt in der Effizienz und Wirksamkeit des Mehrfachaufgaben-Wahrnehmungsprozesses im autonomen Fahren dar und bietet eine neue Perspektive auf die gleichzeitige und parallele Bearbeitung mehrerer 3D-Wahrnehmungsaufgaben. Der Code wird unter folgender URL verfügbar sein: https://github.com/jbji/RepVF