
우리는 동작 인식 및 인간-물체 상호작용 작업에 주의력을 통합하는 간단하면서도 놀랍게도 강력한 모델을 소개합니다. 제안된 주의력 모듈은 추가적인 감독 유무와 관계없이 훈련될 수 있으며, 네트워크 크기와 계산 비용을 거의 변화시키지 않은 채 정확도를 크게 향상시킵니다. 이 모듈은 여전히 이미지와 비디오에서 세 가지 표준 동작 인식 벤치마크에서 기존의 최신 기술을 크게 개선하며, MPII 데이터셋에서는 12.5%의 상대적 개선을 통해 새로운 최신 기술을 확립하였습니다. 또한, 우리는 제안된 주의력 모듈에 대해 경험적으로와 분석적으로 광범위한 분석을 수행하였습니다. 후자 측면에서, 우리는 주의력의 하향식과 상향식 접근법을 이중 선형 풀링 방법(일반적으로 미세한 분류에 사용됨)의 저순위 근사로 해석하는 새로운 도출법을 소개합니다. 이러한 관점에서, 우리의 주의력 공식은 동작 인식을 미세한 인식 문제로 새롭게 특징화할 것을 제안합니다.주요 용어:- action recognition: 동작 인식- human-object interaction: 인간-물체 상호작용- attention module: 주의력 모듈- supervision: 감독- accuracy: 정확도- benchmark: 벤치마크- MPII dataset: MPII 데이터셋- empirical analysis: 경험적 분석- analytical analysis: 분석적 분석- bottom-up attention: 하향식 주의력 (bottom-up)- top-down attention: 상향식 주의력 (top-down)- low-rank approximation: 저순위 근사 (low-rank approximation)- bilinear pooling method: 이중 선형 풀링 방법 (bilinear pooling method)- fine-grained classification: 미세한 분류 (fine-grained classification)