
엔드투엔드 네트워크는 다중 작업에서 점점 더 중요한 역할을 하고 있습니다. 이 중 하나의 주요 예시는 자율 주행에서 드라이빙 인식 시스템의 중요성이 증가하고 있다는 것입니다. 본 논문은 다중 작업을 위한 엔드투엔드 인식 네트워크를 체계적으로 연구하고, 정확도를 향상시키기 위한 몇 가지 핵심 최적화 방법을 제안합니다. 첫째, 가중 양방향 특성 네트워크(weighted bidirectional feature network) 기반으로 효율적인 세그멘테이션 헤드와 박스/클래스 예측 네트워크를 제안합니다. 둘째, 가중 양방향 특성 네트워크의 각 수준에 대해 자동으로 맞춤형 앵커(automatically customized anchor)를 제안합니다. 셋째, 네트워크의 균형과 최적화를 위해 효율적인 손실 함수와 학습 전략을 제안합니다.이러한 최적화 기법들을 바탕으로, 우리는 교통 객체 검출, 주행 가능 영역 세그멘테이션 및 차선 검출을 동시에 수행하는 엔드투엔드 인식 네트워크인 HybridNets를 개발했습니다. HybridNets는 기존 기술보다 더 우수한 정확도를 달성하며, 특히 Berkeley DeepDrive 데이터셋에서 77.3의 평균 정밀도(mean Average Precision)를 기록하였습니다. 또한 1283만 개의 매개변수와 156억 번의 부동 소수점 연산(floating-point operations)으로 차선 검출에서 31.6의 평균 교차 면적 비율(mean Intersection Over Union)을 초월하였습니다. 이 외에도 HybridNets는 실시간으로 시각 인식 작업을 수행할 수 있어 다중 작업 문제에 대한 실용적이고 정확한 해결책입니다. 코드는 https://github.com/datvuthanh/HybridNets에서 확인할 수 있습니다.