Achelous: Ein schnelles, einheitliches Panoptisches Wahrnehmungsframework für Wasserflächen basierend auf der Fusion von Monokamera und 4D mmWave-Radar

Aktuelle Wahrnehmungsmodelle für verschiedene Aufgaben existieren auf unbemannten Oberflächenfahrzeugen (Unmanned Surface Vehicles, USVs) in modularen Formen, die extrem langsam parallel an Edge-Geräten inferieren. Dies führt zu einer Asynchronität zwischen den Wahrnehmungsergebnissen und der Position des USVs und resultiert in fehlerhaften Entscheidungen bei der autonomen Navigation. Im Vergleich zu unbemannten Bodenfahrzeugen (Unmanned Ground Vehicles, UGVs) entwickelt sich die robuste Wahrnehmung von USVs relativ langsam. Darüber hinaus sind die meisten aktuellen Multitask-Wahrnehmungsmodelle in ihren Parametern umfangreich, langsam im Inferenzprozess und nicht skalierbar.Aus diesem Grund schlagen wir Achelous vor, ein kostengünstiges und schnelles einheitliches panoptisches Wahrnehmungsframework für Wasserflächenwahrnehmung basierend auf der Fusion einer Einzelkamera und eines 4D mmWave-Radars. Achelous kann gleichzeitig fünf Aufgaben durchführen: Detektion und Segmentierung visueller Ziele, Segmentierung fahrbare Bereiche, Wasserlinien-Segmentierung und Radar-Punktwolken-Segmentierung. Zudem erreichen Modelle der Achelous-Familie mit weniger als etwa 5 Millionen Parametern eine Geschwindigkeit von etwa 18 FPS auf einem NVIDIA Jetson AGX Xavier, was 11 FPS schneller ist als HybridNets. Sie übertreffen YOLOX-Tiny und Segformer-B0 in unserem gesammelten Datensatz um etwa 5 mAP$_{\text{50-95}}$ und 0,7 mIoU, insbesondere unter Bedingungen ungünstigen Wetters, dunkler Umgebungen und Kameraversagens.Nach unserem Wissen ist Achelous das erste umfassende panoptische Wahrnehmungsframework, das visuelle und Punktwolken-Level-Aufgaben für Wasserflächenwahrnehmung kombiniert. Um die Entwicklung der Gemeinschaft intelligenter Verkehrssysteme zu fördern, veröffentlichen wir unseren Code unter \url{https://github.com/GuanRunwei/Achelous}.