
초록
컨벌루션과 순환 연산은 모두 한 번에 하나의 국소 영역을 처리하는 빌딩 블록입니다. 본 논문에서는 장거리 의존성을 포착하기 위한 일반적인 빌딩 블록 가족으로서 비국소 연산을 제시합니다. 컴퓨터 비전에서 고전적인 비국소 평균 방법에 착안하여, 우리의 비국소 연산은 각 위치에서의 응답을 모든 위치에서의 특징들의 가중합으로 계산합니다. 이 빌딩 블록은 많은 컴퓨터 비전 아키텍처에 적용될 수 있습니다. 동영상 분류 작업에서는 어떠한 추가적인 기술 없이도, 우리의 비국소 모델들은 Kinetics와 Charades 데이터셋에서 현재 경쟁 우승자들과 견주거나 능가할 수 있습니다. 정적 이미지 인식에서는 우리의 비국소 모델들이 COCO 작업군에서 객체 검출/분할 및 자세 추정을 개선시키는 것으로 나타났습니다. 코드는 https://github.com/facebookresearch/video-nonlocal-net 에서 제공됩니다.