소수 샘플 CNN 세그멘테이션을 위한 텍스처 편향에 관한 연구

컨볼루셔널 신경망(CNN)이 시각 인식 작업을 수행하는 데 형태(shape)에 기반하여 작동된다는 초기 믿음에도 불구하고, 최근의 연구 결과는 대규모 레이블링된 학습 데이터셋에서 학습할 경우 CNN의 텍스처 편향(texture bias)이 더 높은 성능을 보이는 모델을 생성한다는 점을 시사하고 있다. 이는 인간의 시각 피질에서 관찰되는 형태 성분에 대한 강한 선호도를 지닌 인지적 편향과 대조된다. 이러한 인지적 차이는 대규모 레이블링 데이터셋이 존재할 경우 CNN이 인간 수준의 성능을 달성할 수 있지만, 레이블이 적은 환경(예: 소수 샘플(sematic segmentation))에서는 성능이 급격히 저하되는 이유를 설명할 수 있다. 소수 샘플 학습의 맥락에서 텍스처 편향을 제거하기 위해, 우리는 공간 도메인에서 가우시안 분포의 다양한 표준편차 값에 따라 고주파 국소 성분을 감쇠시키는 다수의 가우시안 차분(Difference of Gaussians, DoG)을 통합한 새로운 아키텍처를 제안한다. 이 과정을 통해 하나의 이미지에 대해 다수의 수정된 특징 맵(modified feature maps)이 생성되며, 이들 맵의 고주파 성분은 각각 다른 표준편차에 따라 감소된다. 이러한 다중 스케일 공간 표현을 효율적으로 통합하기 위해, 우리는 양방향 컨볼루셔널 LSTM(bi-directional convolutional long-short-term-memory)을 활용한다. 제안된 방법은 세 가지 유명한 소수 샘플 세그멘테이션 벤치마크(Pascal i5, COCO-20i, FSS-1000)에서 광범위한 실험을 수행하였으며, 동일한 조건 하에서 두 개의 데이터셋에서 최신 기술(SOTA)을 초과하는 성능을 입증하였다. 코드는 다음 링크에서 공개되어 있다: https://github.com/rezazad68/fewshot-segmentation