11일 전
액션 세그멘테이션을 위한 크로스-엔하ancement 트랜스포머
Jiahui Wang, Zhenyou Wang, Shanna Zhuang, Hui Wang

초록
시간적 컨볼루션은 액션 세그멘테이션 분야에서 전통적으로 선호되어 왔으며, 컨볼루션 계층을 늘림으로써 장기적인 수용 영역을 강화하는 방식이다. 그러나 깊은 계층은 프레임 인식에 필수적인 국소 정보의 손실을 초래할 수 있다. 위의 문제를 해결하기 위해 본 논문에서는 새로운 인코더-디코더 구조인 크로스-엔하анс먼트 트랜스포머(Cross-Enhancement Transformer)를 제안한다. 본 방법은 상호작용적인 자체 주의(self-attention) 메커니즘을 통해 시간적 구조 표현을 효과적으로 학습할 수 있다. 인코더의 각 계층에서 생성된 컨볼루션 특징맵을 디코더에서 자체 주의를 통해 생성된 특징 집합과 연결함으로써, 프레임 액션의 시리즈에서 국소 정보와 전역 정보를 동시에 활용할 수 있다. 또한, 과도한 세그멘테이션 오류를 방지하기 위해 새로운 손실 함수를 제안하여 학습 과정을 강화하였다. 실험 결과, 제안한 프레임워크는 50Salads, Georgia Tech Egocentric Activities, Breakfast 데이터셋 등 세 가지 도전적인 데이터셋에서 최신 기준(SOTA) 성능을 달성하였다.