B2C-AFM: 인간 행동 인식을 위한 양방향 동시시적 및 교차공간 주의 병합 모델
인간 행동 인식은 인간-컴퓨터 상호작용 응용 분야의 핵심 기술로 작용한다. 현재 대부분의 연구는 RGB 이미지, 인간의 자세, 광학 흐름 등 동일한 유형의 다중 모달리티를 통합함으로써 모델의 일반화 능력을 향상시키는 데 초점을 맞추고 있다. 또한, 맥락적 상호작용과 비맥락적 수어의 경우, 장면의 카테고리 및 인간 자체의 특성에 따라 달라진다는 것이 검증되었다. 이러한 외관 특징과 인간 자세를 통합하려는 시도는 긍정적인 결과를 보였다. 그러나 인간 자세의 공간적 오류와 시간적 모호성으로 인해 기존 방법들은 확장성 부족, 제한된 강건성, 최적화되지 않은 모델이라는 문제를 겪고 있다. 본 논문에서는 다양한 모달리티가 시간적으로 일관성을 유지하고 공간적으로 보완적인 특성을 가질 수 있다는 가정에 착안하여, 새로운 양방향 동시시간-교차공간 주의력 융합 모델(Bi-directional Co-temporal and Cross-spatial Attention Fusion Model, B2C-AFM)을 제안한다. 본 모델은 시간적 및 공간적 차원을 따라 다중 모달 특징을 비동기적으로 융합하는 전략을 특징으로 한다. 또한, 인간 자세의 시간적 모호성을 완화하기 위해 새로운 명시적 운동 지향 자세 표현인 지지부 흐름 필드(Limb Flow Fields, Lff)를 도입하였다. 공개된 데이터셋을 이용한 실험을 통해 본 연구의 기여를 검증하였으며, 풍부한 제거 실험을 통해 B2C-AFM이 관측된 및 미관측 인간 행동 모두에서 강건한 성능을 달성함을 실험적으로 입증하였다. 코드는 https://github.com/gftww/B2C.git 에서 제공된다.