Achelous: 단일 카메라와 4D mmWave 레이다를 융합한 빠른 통합 수면 파노라마 인식 프레임워크

현재 다양한 작업을 위한 인식 모델은 일반적으로 무인 표면 선박(USVs)에서 모듈 형식으로 존재하며, 엣지 장치에서 매우 느리게 병렬로 추론되어 인식 결과와 USV 위치 사이의 비동기화를 초래하고 자율 항행의 오류 결정을 유발합니다. 무인 지상 차량(UGVs)과 비교할 때, USVs의 견고한 인식 능력은 상대적으로 천천히 발전해 왔습니다. 또한, 대부분의 현재 다중 작업 인식 모델은 매개변수 수가 많고, 추론 속도가 느리며 확장성이 없습니다. 이에 대응하여, 우리는 단일 카메라와 4D mmWave 레이더의 융합 기반으로 수면 인식을 위한 저비용이고 빠른 통합 팬옵틱 인식 프레임워크인 아케로우스(Achelous)를 제안합니다. 아케로우스는 시각적 타겟 검출 및 분할, 주행 가능 영역 분할, 수면선 분할 및 레이더 포인트 클라우드 분할 등 다섯 가지 작업을 동시에 수행할 수 있습니다. 또한, 약 5백만 개 미만의 매개변수를 가진 아케로우스 계열 모델들은 NVIDIA Jetson AGX Xavier에서 약 18 FPS를 달성하며, 하이브리드넷(HybridNets)보다 11 FPS 더 빠르며 우리의 수집 데이터셋에서 YOLOX-Tiny와 Segformer-B0를 각각 약 5 mAP$_{\text{50-95}}$와 0.7 mIoU로 초과합니다. 특히 불량 날씨, 어두운 환경 및 카메라 고장 상황에서는 더욱 우수한 성능을 보입니다. 우리所知에 따르면, 아케로우스는 수면 인식을 위해 시각 수준과 포인트 클라우드 수준 작업을 결합한 최초의 포괄적인 팬옵틱 인식 프레임워크입니다. 지능형 교통 커뮤니티의 발전을 촉진하기 위해, 우리는 코드를 \url{https://github.com/GuanRunwei/Achelous}에서 공개합니다.注:在最后一句中,“据我们所知”被误翻译为“우所知에 따르면”。正确的翻译应该是“우리가 알고 있는 바로는”或“우리의 지식에 따르면”。以下是修正后的版本:현재 다양한 작업을 위한 인식 모델은 일반적으로 무인 표면 선박(USVs)에서 모듈 형식으로 존재하며, 엣지 장치에서 매우 느리게 병렬로 추론되어 인식 결과와 USV 위치 사이의 비동기화를 초래하고 자율 항행의 오류 결정을 유발합니다. 무인 지상 차량(UGVs)과 비교할 때, USVs의 견고한 인식 능력은 상대적으로 천천히 발전해 왔습니다. 또한, 대부분의 현재 다중 작업 인식 모델은 매개변수 수가 많고, 추론 속도가 느리며 확장성이 없습니다. 이에 대응하여, 우리는 단일 카메라와 4D mmWave 레이더의 융합 기반으로 수면 인식을 위한 저비용이고 빠른 통합 팬옵틱 인식 프레임워크인 아케로우스(Achelous)를 제안합니다. 아케로우스는 시각적 타겟 검출 및 분할, 주행 가능 영역 분할, 수면선 분할 및 레이더 포인트 클라우드 분할 등 다섯 가지 작업을 동시에 수행할 수 있습니다. 또한, 약 5백만 개 미만의 매개변수를 가진 아케로우스 계열 모델들은 NVIDIA Jetson AGX Xavier에서 약 18 FPS를 달성하며, 하이브리드넷(HybridNets)보다 11 FPS 더 빠르며 우리의 수집 데이터셋에서 YOLOX-Tiny와 Segformer-B0를 각각 약 5 mAP$_{\text{50-95}}$와 0.7 mIoU로 초과합니다. 특히 불량 날씨, 어두운 환경 및 카메라 고장 상황에서는 더욱 우수한 성능을 보입니다. 우리가 알고 있는 바로는, 아케로우스는 수면 인식을 위해 시각 수준과 포인트 클라우드 수준 작업을 결합한 최초의 포괄적인 팬옵틱 인식 프레임워크입니다. 지능형 교통 커뮤니티의 발전을 촉진하기 위해, 우리는 코드를 \url{https://github.com/GuanRunwei/Achelous}에서 공개합니다.