17일 전

ASQuery: 작업 분할을 위한 쿼리 기반 모델

{Zhao Jian, Xing Junliang, Li Jianshu, Wang Zhecan, Li Liang, Li Zhou, Zheng Wang, Nie Lei, Jin Lei, Gan Ziliang}
초록

시간적 행동 분할(task of temporal action segmentation)에 대한 기존 연구들은 일반적으로 이를 프레임 단위 분류 문제로 취급한다. 본 논문에서는 각 행동 카테고리의 중심 표현(central representation)을 학습함으로써 간단하면서도 효과적인 모델인 ASQuery를 제안한다. 이 모델은 분류 문제를 카테고리별 쿼리(query)와 프레임 특징 간의 유사도 계산 문제로 전환한다. 이러한 중심 표현은 Transformer 디코더 모듈을 통해 동적으로 생성되며, 이로 인해 전체 영상에 대한 더 유연하고 포괄적인 인식 능력을 갖게 된다. 또한 본 논문에서는 분할 결과를 정교화하기 위해 경계 쿼리(boundary query)를 최초로 도입하여 과도한 분할(over-segmentation) 문제를 완화하는 데 기여한다. ASQuery는 최신 기술 대비 뛰어난 성능을 보이며, 공개된 행동 분할 데이터셋인 Breakfast와 Assembly101에서 평균 지표(mean metrics)에서 각각 0.9%, 4.1% 향상을 달성하였다. 소스 코드는 다음 링크에서 확인할 수 있다: https://github.com/zlngan/ASQuery.