11일 전

Cityscapes-3D에서의 2D-3D 공동 다중 작업 학습: 3D 감지, 세그멘테이션 및 깊이 추정

Hanrong Ye, Dan Xu
Cityscapes-3D에서의 2D-3D 공동 다중 작업 학습: 3D 감지, 세그멘테이션 및 깊이 추정
초록

이 보고서는 Cityscapes-3D 기반의 새로운 2D-3D 다중 작업 학습 벤치마크 위에서 TaskPrompter의 구현을 상세히 설명하는 보충 문서이다. TaskPrompter는 기존의 접근 방식이 각각의 네트워크 모듈로 분리했던 (i) 작업 일반화 표현 학습, (ii) 작업 특화 표현 학습, (iii) 작업 간 상호작용 학습을 통합하는 혁신적인 다중 작업 프롬프팅 프레임워크를 제안한다. 이 통합적 접근은 철저한 경험적 아키텍처 설계의 필요성을 줄이며, 전체 모델 용량을 동시에 세 가지 학습 목표를 최적화하는 데 집중함으로써 다중 작업 네트워크의 표현 학습 능력을 크게 향상시킨다. TaskPrompter는 단일 카메라 기반 3D 차량 감지, 세분화, 단일 카메라 깊이 추정을 동시에 수행해야 하는 새로운 다중 작업 벤치마크를 도입하였다. 이러한 작업들은 자율 주행 시스템 개발과 같은 맥락에서 시각적 장면에 대한 종합적인 2D-3D 이해를 달성하는 데 필수적이다. 이 도전적인 벤치마크에서 제안하는 다중 작업 모델은 단일 작업 최신 기법들과 비교하여 뛰어난 성능을 보이며, 특히 3D 감지 및 깊이 추정 작업에서 새로운 최고 성능 기록을 수립하였다.

Cityscapes-3D에서의 2D-3D 공동 다중 작업 학습: 3D 감지, 세그멘테이션 및 깊이 추정 | 최신 연구 논문 | HyperAI초신경