
초록
다중 스케일 추론은 세그멘테이션 결과를 향상시키는 데 일반적으로 사용되는 기법이다. 여러 개의 이미지 스케일을 네트워크에 통과시킨 후, 평균화나 최댓값 풀링을 통해 결과를 결합한다. 본 연구에서는 다중 스케일 예측을 결합하는 주의 기반 접근법을 제안한다. 특정 스케일에서의 예측이 특정한 오류 유형을 더 잘 해결할 수 있음을 보여주며, 이러한 경우 네트워크가 해당 스케일을 선호함으로써 보다 정확한 예측을 생성하도록 학습함을 입증한다. 제안하는 주의 메커니즘은 계층적 구조를 가지며, 이로 인해 최근의 다른 접근법 대비 약 4배 더 메모리 효율적으로 학습이 가능하다. 또한 빠른 학습을 가능하게 함은 물론, 더 큰 크롭 크기로 학습할 수 있어 모델의 정확도를 더욱 높일 수 있다. 제안한 방법의 성능을 Cityscapes 및 Mapillary Vistas 두 가지 데이터셋에서 검증하였다. 특히 Cityscapes는 약한 라벨링을 가진 이미지가 다수 포함되어 있어, 일반화 성능 향상을 위해 자동 라벨링 기법을 활용하였다. 본 방법을 적용함으로써 Mapillary(V1.1, 61.1 IOU val) 및 Cityscapes(85.1 IOU test)에서 각각 새로운 최고 성능을 달성하였다.