
행동 분할 작업을 위한 알고리즘은 일반적으로 1분 길이의 일상 활동에 대해 각 프레임에서 발생하는 행동을 예측하기 위해 시간적 모델을 사용한다. 최근 연구들은 시퀀스 데이터 내 요소 간의 관계를 모델링하는 데서 Transformer의 잠재력을 보여주었다. 그러나 행동 분할 작업에 직접 Transformer를 적용할 경우 몇 가지 주요한 문제점이 존재한다. 예를 들어, 소규모 학습 데이터셋에서 유도적 편향(Inductive biases)이 부족하며, 긴 입력 시퀀스 처리에 한계가 있으며, 디코더 아키텍처의 제약으로 인해 여러 행동 세그먼트 간의 시간적 관계를 효과적으로 활용하여 초기 예측을 개선하는 데 어려움이 있다. 이러한 문제점을 해결하기 위해, 우리는 세 가지 특징을 갖춘 효율적인 Transformer 기반 모델인 ASFormer을 제안한다. (i) 행동 특징의 높은 국소성(locality)을 고려하여, 국소적 연결성에 대한 유도 사전 지식을 명시적으로 도입한다. 이는 가설 공간을 신뢰할 수 있는 범위 내에 제한함으로써, 소규모 학습 데이터셋에서도 적절한 목표 함수를 학습하는 데 유리하다. (ii) 사전 정의된 계층적 표현 패턴을 도입하여 긴 입력 시퀀스를 효율적으로 처리한다. (iii) 인코더에서 생성한 초기 예측을 보정하기 위해 디코더를 신중하게 설계한다. 공개된 세 가지 데이터셋에서 실시한 광범위한 실험 결과는 제안된 방법의 효과성을 입증한다. 코드는 \url{https://github.com/ChinaYi/ASFormer}에서 제공된다.