한 달 전
깊이별 합성곱이 여러 시각 영역 학습에 필요한 전부입니다.
Yunhui Guo; Yandong Li; Rogerio Feris; Liqiang Wang; Tajana Rosing

초록
다양한 시각 영역의 이미지를 처리할 수 있는 모델 설계에 대한 관심이 증가하고 있습니다. 만약 다른 시각 영역에서 공통적인 매개변수화를 통해 포착할 수 있는 보편적인 구조가 존재한다면, 각 영역별로 개별 모델을 사용하는 대신 모든 영역에 단일 모델을 사용할 수 있습니다. 또한, 서로 다른 영역 간의 관계를 인식하는 모델은 새로운 영역에서 적은 자원으로도 훈련될 수 있습니다. 그러나, 모델 내 재사용 가능한 구조를 식별하는 것은 쉽지 않습니다. 본 논문에서는 깊이 분리 컨볼루션(Depthwise Separable Convolution) 기반의 다영역 학습 아키텍처를 제안합니다. 제안된 접근 방식은 서로 다른 영역의 이미지가 채널 간 상관관계는 공유하지만, 공간적 상관관계는 영역 특异性를 가진다는 가정 위에 기초하고 있습니다. 제안된 모델은 소형이며 새로운 영역에 적용할 때 최소한의 부하만을 필요로 합니다. 또한, 서로 다른 영역 간 유연한 공유를 촉진하기 위해 게이팅 메커니즘(Gating Mechanism)을 도입하였습니다. 우리는 다영역 모델의 성능을 평가하기 위한 벤치마크인 Visual Decathlon Challenge에서 우리의 접근 방식을 평가하였습니다. 실험 결과, 제안된 접근 방식은 최고 점수를 달성하면서 기존 최신 접근 방식보다 50% 적은 매개변수만 필요함을 확인하였습니다.