2달 전
비전 트랜스포머를 위한 상관 구조 학습
Kim, Manjin ; Seo, Paul Hongsuck ; Schmid, Cordelia ; Cho, Minsu

초록
우리는 주의 메커니즘의 새로운 형태인 구조적 자기 주의 (StructSA)를 소개합니다. 이 메커니즘은 주의의 키-쿼리 상호작용에서 자연스럽게 나타나는 풍부한 상관 관계 패턴을 활용하여, 컨볼루션을 통해 키-쿼리 상관 관계의 시공간 구조를 인식하여 주의 맵을 생성하고, 이를 사용하여 값 특성의 국소적 문맥을 동적으로 집계합니다. 이는 장면 레이아웃, 객체 운동, 객체 간 관계 등 이미지와 비디오에서 나타나는 풍부한 구조적 패턴을 효과적으로 활용합니다. StructSA를 주요 구성 요소로 사용하여, 우리는 구조적 비전 트랜스포머 (StructViT)를 개발하였으며, 이 모델의 효율성을 이미지 분류 및 비디오 분류 작업에서 평가하였습니다. 그 결과 ImageNet-1K, Kinetics-400, Something-Something V1 & V2, Diving-48, FineGym 등의 데이터셋에서 최고 수준의 성능을 달성하였습니다.