실시간 및 일반적인 다중 작업을 위한 You Only Look at Once

고도의 정밀성, 경량화, 그리고 실시간 응답성은 자율 주행을 구현하기 위한 세 가지 필수 요구사항입니다. 본 연구에서는 객체 검출, 주행 가능 영역 분할, 차선 분할 작업을 동시에 처리하도록 설계된 적응형, 실시간, 경량화된 다중 작업 모델인 A-YOLOM(Adaptive YOLO Multi-task)을 통합합니다. 특히, 통합되고 간소화된 분할 구조를 가진 엔드투엔드 다중 작업 모델을 개발하였습니다. 우리는 분할 작업에서 넥과 백본 사이의 특징들을 적응적으로 연결하는 학습 가능한 매개변수를 도입하였으며, 모든 분할 작업에 동일한 손실 함수(loss function)를 사용하여 이로 인해 사용자 정의(customization)의 필요성을 제거하고 모델의 일반화 능력을 향상시켰습니다. 또한, 파라미터 수와 추론 시간을 줄이기 위해 컨볼루션 계층(convolutional layers)만으로 구성된 분할 헤드(segmentation head)를 도입하였습니다. 우리는 BDD100k 데이터셋에서 경쟁력 있는 결과를 달성하였으며, 특히 시각화 결과에서 뛰어난 성능을 보였습니다. 성능 결과는 객체 검출에서 mAP50가 81.1%, 주행 가능 영역 분할에서 mIoU가 91.0%, 차선 분할에서 IoU가 28.8%를 기록하였습니다. 또한, 실제 환경에서 모델의 성능을 평가하기 위해 실제 시나리오(real-world scenarios)를 도입하였으며, 이는 경쟁사보다 크게 우수한 성능을 보여주었습니다. 이는 우리의 모델이 단지 경쟁력 있는 성능을 보이는 것뿐만 아니라 기존 다중 작업 모델보다 더 유연하고 빠르다는 것을 입증합니다. 소스 코드와 사전 학습(pre-trained)된 모델들은 https://github.com/JiayuanWang-JW/YOLOv8-multi-task 에서 제공됩니다.