하루 동안 장면의 외관은 극적으로 변화한다. 기존의 의미 분할 방법들은 주로 잘 조명된 낮 시간대 시나리오에 초점을 맞추고 있으며, 이러한 극적인 외관 변화에 대응하도록 설계되어 있지 않다. 도메인 적응(domain adaptation)을 단순히 적용하는 것은 이 문제를 해결하지 못한다. 왜냐하면 일반적으로 소스 도메인과 타겟 도메인 사이에 고정된 매핑을 학습하기 때문이며, 이로 인해 아침부터 밤까지의 전일 시나리오에 대해 제한된 일반화 능력을 갖기 때문이다.본 논문에서는 기존 방법들과는 달리, 이미지 형성 자체의 관점에서 이 도전 과제에 접근한다. 이미지 외관은 내재적(예: 의미 카테고리, 구조) 특성과 외재적(예: 조명) 특성의 두 가지 요소에 의해 결정된다. 이를 위해 우리는 새로운 내재-외재 상호작용 학습 전략을 제안한다. 핵심 아이디어는 공간적 지도(spatial-wise guidance) 하에 내재적 표현과 외재적 표현 간의 상호작용을 학습 과정에서 유도하는 것이다. 이를 통해 내재적 표현은 더 안정화되고, 동시에 외재적 표현은 변화를 더 잘 묘사할 수 있게 된다. 결과적으로 개선된 이미지 표현은 전일 시나리오에 대해 픽셀 단위 예측을 더 견고하게 생성할 수 있게 된다. 이를 달성하기 위해 우리는 종단간(end-to-end) 방식으로 전체 통합 분할 네트워크(All-in-One Segmentation Network, AO-SegNet)를 제안한다.본 연구에서는 실제 데이터셋 세 종류(Mapillary, BDD100K, ACDC)와 제안한 합성 전일 도시 스케이프 데이터셋(All-day CityScapes)을 대상으로 대규모 실험을 수행하였다. 제안한 AO-SegNet은 다양한 CNN 및 ViT 백본을 사용한 모든 데이터셋에서 최신 기술(SOTA) 대비 유의미한 성능 향상을 보였다.