17일 전
관계형 자체 주의: 영상 이해를 위한 주의 메커니즘에서 빠진 점은 무엇인가
Manjin Kim, Heeseung Kwon, Chunyu Wang, Suha Kwak, Minsu Cho

초록
컨볼루션은 현대 신경망에서 가장 중요한 특징 변환 기법이라 할 수 있으며, 딥러닝의 발전을 이끌어왔다. 최근 트랜스포머 네트워크가 등장하면서 컨볼루션 레이어 대신 자기 주의(self-attention) 블록을 도입함으로써 정적 컨볼루션 커널의 한계가 드러나고, 동적 특징 변환의 시대가 열리게 되었다. 그러나 기존의 동적 변환 기법, 예를 들어 자기 주의 기법은 영상 이해에 있어서 공간적·시간적 대응 관계(즉, 운동 정보)가 효과적인 표현에 핵심적인 역할을 하기 때문에 한계가 있다. 본 연구에서는 영상 내 시공간적 관계의 풍부한 구조를 활용하여 동적으로 관계 커널을 생성하고 관계적 맥락을 집계하는 관계형 특징 변환, 즉 관계형 자기 주의(Relational Self-Attention, RSA)를 제안한다. 실험 및 아블레이션 연구 결과, RSA 네트워크는 컨볼루션 및 자기 주의 기법과 비교하여 뚜렷한 성능 우위를 보이며, Something-Something-V1 & V2, Diving48, FineGym과 같은 표준 운동 중심 영상 행동 인식 벤치마크에서 최신 기술(SOTA) 수준의 성능을 달성하였다.