Command Palette
Search for a command to run...
Kai Zeng Zhanqian Wu Kaixin Xiong Xiaobao Wei et al

초록
최근 운전 세계 모델의 발전으로 고품질 RGB 영상 또는 다중모달 영상의 제어 가능한 생성이 가능해졌다. 기존 방법들은 주로 생성 품질 및 제어 가능성과 관련된 지표에 집중하고 있으나, 자율주행 시스템의 성능에 매우 중요한 후속 인식 작업( downstream perception tasks )의 평가를 간과하는 경우가 많다. 기존 방법들은 일반적으로 합성 데이터에서 사전 학습한 후 실제 데이터에서 미세 조정하는 전략을 사용하는데, 이로 인해 기준 모델(실제 데이터만 사용)보다 학습 에포크 수가 두 배가 된다. 우리가 기준 모델의 에포크 수를 두 배로 늘릴 경우, 합성 데이터의 효과는 거의 사라진다. 합성 데이터의 효과를 철저히 입증하기 위해, 후속 인식 작업을 향상시키기 위한 목적의 새로운 합성 데이터 생성 프레임워크인 Dream4Drive를 제안한다. Dream4Drive는 입력 영상을 여러 개의 3D 인식 지도맵으로 분해한 후, 이를 기반으로 3D 자산을 렌더링한다. 이후 운전 세계 모델을 미세 조정하여 편집된 다중 시점 사진처럼 생긴 영상을 생성하며, 이러한 영상은 후속 인식 모델의 학습에 활용될 수 있다. Dream4Drive는 대규모에서 다중 시점의 극단적인 사례(코너 케이스)를 획기적으로 유연하게 생성할 수 있게 해주며, 자율주행 시스템의 코너 케이스 인식 능력을 크게 향상시킨다. 향후 연구를 지원하기 위해, 운전 시나리오에서 일반적으로 등장하는 카테고리를 포함하는 대규모 3D 자산 데이터셋인 DriveObj3D도 함께 기여한다. 이 데이터셋은 다양한 3D 인식 영상 편집을 가능하게 한다. 광범위한 실험을 통해 Dream4Drive가 다양한 학습 에포크 조건에서 후속 인식 모델의 성능을 효과적으로 향상시킬 수 있음을 입증하였다. 프로젝트 페이지: $\href{this https URL}{this\ https\ URL}$