다양한 스케일을 고려한 효율적인 아키텍처를 찾아 밀도 높은 이미지 예측에 적용하기

신경망 아키텍처의 설계는 다양한 작업에서 최고 수준의 성능을 달성하기 위한 기계 학습 시스템의 중요한 구성 요소입니다. 많은 연구가 검색 공간을 구축하고 간단한 학습 알고리즘을 결합하여 아키텍처를 자동으로 설계하는 데 초점을 맞추었습니다. 최근의 진전은 이러한 메타학습 방법이 이미지 분류 작업에서 확장 가능한 인간이 발명한 아키텍처를 능가할 수 있음을 보여주었습니다. 그러나 이러한 방법이 새로운 영역에 얼마나 일반화될 수 있는지는 여전히 개방된 질문입니다. 본 연구에서는 장면 해석(scene parsing), 사람 부분 세분화(person-part segmentation), 그리고 의미론적 이미지 세분화(semantic image segmentation)와 같은 밀집 이미지 예측 작업에 집중한 메타학습 기술의 구성을 탐구합니다. 이 영역에서 적절한 검색 공간을 구축하는 것은 시각 정보의 다중 스케일 표현과 고해상도 이미지를 처리해야 하는 필요성 때문에 어려운 문제입니다. 밀집 이미지 예측 기법에 대한 조사를 바탕으로 재귀적인 검색 공간을 구성하였으며, 효율적인 무작위 검색조차도 인간이 발명한 아키텍처보다 우수한 성능을 내며 세 가지 밀집 예측 작업에서 최고 수준의 성능(시티스케이프스(Cityscapes)에서 82.7%, 패스칼-사람-부분(PASCAL-Person-Part)에서 71.3%, 패스칼 VOC 2012(PASCAL VOC 2012)에서 87.9%)을 달성할 수 있음을 입증하였습니다. 또한, 결과적으로 도출된 아키텍처는 이전 최고 수준 시스템보다 절반의 매개변수와 절반의 계산 비용만 필요로 하므로 더욱 계산 효율적임을 확인할 수 있습니다.