17일 전

DAS: CNN에서 주목할 만한 정보를 포착하기 위한 변형 가능한 어텐션

Farzad Salajegheh, Nader Asadi, Soroush Saryazdi, Sudhir Mudur
DAS: CNN에서 주목할 만한 정보를 포착하기 위한 변형 가능한 어텐션
초록

합성곱 신경망(CNN)은 국소적인 공간 패턴 인식에서 뛰어난 성능을 발휘한다. 객체 인식 및 세그멘테이션과 같은 많은 시각 작업에서는 CNN의 커널 경계 외부에도 중요한 정보가 존재한다. 그러나 CNN은 제한된 수용장( receptive field)으로 인해 이러한 관련 정보를 효과적으로 포착하기 어려운 문제가 있다. 반면 자기 주의(Self-attention)는 모델이 전역 정보에 더 잘 접근할 수 있도록 도와주지만, 계산 부담이 증가하는 단점이 있다. 본 연구에서는 관련 정보에 집중할 수 있도록 돕는 빠르고 간단한 완전 합성곱 기반의 방법인 DAS를 제안한다. DAS는 관련 이미지 영역의 위치를 위해 변형 가능한 합성곱(Deformable Convolutions)을 사용하고, 효율성을 높이기 위해 분리 가능한 합성곱(Separable Convolutions)을 활용한다. DAS는 기존 CNN에 쉽게 통합되며, 게이팅 메커니즘을 통해 관련 정보를 전파한다. 트랜스포머 기반의 주의 메커니즘과 비교했을 때, DAS는 O(n²)의 계산 복잡도를 가지는 반면, DAS는 O(n)의 복잡도를 갖는다. 본 연구의 주장은, DAS가 관련 특징에 더 큰 주의를 기울일 수 있는 능력이 기존의 인기 있는 CNN 모델에 추가될 경우, 이미지 분류 및 객체 탐지 작업에서 성능 향상을 가져온다는 것이다. 예를 들어, 기준 ResNet50 백본을 사용할 때 DAS는 스탠포드 도그(Stanford Dogs)에서 4.47%, ImageNet에서 1.91%, COCO AP에서 3.3%의 성능 향상을 기록한다. 이는 유사하거나 더 낮은 FLOPs를 사용하면서도 다른 CNN 주의 메커니즘을 능가하는 성능을 보인다. 본 연구의 코드는 공개될 예정이다.