
초록
인간 행동 인식은 본질적으로 시공간적 추론 문제이며, 관련된 인간과 물체의 외형 변화에 대해 어느 정도 불변성을 가져야 한다. 이 가정에 기반하여 본 연구에서는 행동 인식에 대해 객체 중심적 접근을 취한다. 이 설정에 대한 다수의 연구가 이미 존재하지만, 여전히 다음과 같은 문제가 명확하지 않다: (i) 신중하게 설계된 시공간 레이아웃 기반 방법이 인간 행동을 얼마나 잘 인식할 수 있는가, 그리고 (ii) 레이아웃 기반 모델과 외형 기반 모델의 정보를 어떻게, 언제 융합할 것인가. 본 논문의 주된 초점은 조합적/소수 샘플(기존에 보지 못한) 행동 인식에 있으며, 공간적 추론에 효과적임이 입증된 다중 헤드 어텐션을 시공간 레이아웃—즉, 객체 경계 상자들의 구성—에 적용할 것을 제안한다. 우리는 비디오 외형 정보를 시스템에 주입하는 다양한 전략을 평가하고, 배경이 혼잡한 행동 인식 데이터셋에서 본 방법을 벤치마킹한다. Something-Else 및 Action Genome 데이터셋에서, (i) 다중 헤드 어텐션을 시공간 레이아웃 기반 행동 인식에 확장하는 방법을 보여주며, (ii) 레이아웃 기반 모델과 외형 기반 모델의 융합을 통해 외형 기반 모델의 성능을 향상시킬 수 있음을 입증하고, (iii) 조합적이지 않은 배경이 혼잡한 비디오 데이터셋에서도 레이아웃 기반 모델과 외형 기반 모델의 융합이 성능 향상에 기여함을 확인한다.