
컨볼루션과 자체 주의(자기주의, self-attention)는 딥 신경망에서 두 가지 핵심적인 구성 요소로 작용하며, 컨볼루션은 선형적인 방식으로 이미지의 국소적 특징을 추출하는 반면, 자체 주의는 고차원의 전역적 맥락 관계를 비국소적으로 인코딩한다. 이 둘은 본질적으로 상보적인 관계를 가지며, 각각 1차 및 고차 특징을 처리하는 데 특화되어 있으나, 현재 최첨단 아키텍처인 CNN과 트랜스포머는 이 둘을 하나의 계산 모듈 내에서 동시에 적용할 수 있는 체계적인 방법이 부족하다. 그 이유는 두 기법 간의 계산 패턴이 상이하며, 특히 시각 작업에서 전역적인 도트 곱 연산으로 인해 과도한 부담이 발생하기 때문이다. 본 연구에서는 자체 주의를 변환된 특징에 대한 컨볼루션 연산을 통해 근사하는 전역적 자체 주의 근사 기법을 이론적으로 도출하였다. 이 근사 기법을 기반으로, 컨볼루션과 자체 주의를 모두 포함하는 다중 분기 기본 모듈을 설계하였으며, 이는 국소적 및 비국소적 특징 상호작용을 통합적으로 처리할 수 있도록 한다. 특히, 학습이 완료된 후 이 다중 분기 모듈은 구조적 재파라미터화를 통해 조건부로 단일 표준 컨볼루션 연산으로 변환될 수 있으며, 이를 통해 순수한 컨볼루션 스타일의 연산자인 X-볼루션(X-volution)을 도출할 수 있다. 이 X-볼루션은 현대 네트워크의 임의의 위치에 원자적 연산자처럼 삽입 가능하다. 광범위한 실험을 통해 제안된 X-볼루션은 매우 경쟁력 있는 시각 이해 성능 향상을 보였다. ImageNet 분류에서는 상위 1 정확도가 +1.2% 향상되었으며, COCO 객체 탐지 및 세그멘테이션에서는 박스 AP가 +1.7%, 마스크 AP가 +1.5% 개선되었다.