DirecFormer: Transformer 기반의 방향성 주의 메커니즘을 통한 강건한 동작 인식

인간 행동 인식은 최근 컴퓨터 비전 분야에서 주목받는 연구 주제 중 하나가 되었다. 다양한 3D-CNN 기반의 방법들이 영상 행동 인식 작업에서 공간적 및 시간적 차원을 동시에 다루기 위해 제안되었으며, 경쟁력 있는 성능을 보였다. 그러나 이러한 방법들은 겉보기에는 성능이 우수하지만, 본질적인 한계를 지니고 있다. 예를 들어, 시간적 순서의 변화가 행동 인식 결과에 어떤 영향을 미치는지에 대한 저항성과 일반화 능력의 부족이 대표적이다. 본 연구는 강건한 행동 인식을 위한 새로운 엔드 투 엔드 Transformer 기반의 방향성 주의(Directed Attention, DirecFormer) 프레임워크를 제안한다. 이 방법은 Transformer 기반 접근법에 대해 간단하면서도 혁신적인 시각을 제시하여, 행동 시퀀스의 올바른 순서를 이해하는 데 초점을 맞춘다. 따라서 본 연구의 기여는 세 가지 측면에서 이루어진다. 첫째, 행동 인식 문제에 정렬된 시간 학습 문제를 도입하였다. 둘째, 행동의 올바른 순서에서 인간 행동에 대한 주의를 이해하고 제공할 수 있는 새로운 방향성 주의 메커니즘을 제안하였다. 셋째, 행동 시퀀스 모델링에 순서와 클래스를 포함한 조건부 종속성(conditional dependency)을 도입하였다. 제안된 방법은 Jester, Kinetics-400, Something-Something-V2라는 세 가지 표준 대규모 벤치마크에서 최근의 행동 인식 방법들과 비교하여 일관되게 최신 기준(SOTA, State-of-the-Art) 성능을 달성하였다.