11일 전

액션 세그멘테이션을 위한 크로스-엔하ancement 트랜스포머

Jiahui Wang, Zhenyou Wang, Shanna Zhuang, Hui Wang
액션 세그멘테이션을 위한 크로스-엔하ancement 트랜스포머
초록

시간적 컨볼루션은 액션 세그멘테이션 분야에서 전통적으로 선호되어 왔으며, 컨볼루션 계층을 늘림으로써 장기적인 수용 영역을 강화하는 방식이다. 그러나 깊은 계층은 프레임 인식에 필수적인 국소 정보의 손실을 초래할 수 있다. 위의 문제를 해결하기 위해 본 논문에서는 새로운 인코더-디코더 구조인 크로스-엔하анс먼트 트랜스포머(Cross-Enhancement Transformer)를 제안한다. 본 방법은 상호작용적인 자체 주의(self-attention) 메커니즘을 통해 시간적 구조 표현을 효과적으로 학습할 수 있다. 인코더의 각 계층에서 생성된 컨볼루션 특징맵을 디코더에서 자체 주의를 통해 생성된 특징 집합과 연결함으로써, 프레임 액션의 시리즈에서 국소 정보와 전역 정보를 동시에 활용할 수 있다. 또한, 과도한 세그멘테이션 오류를 방지하기 위해 새로운 손실 함수를 제안하여 학습 과정을 강화하였다. 실험 결과, 제안한 프레임워크는 50Salads, Georgia Tech Egocentric Activities, Breakfast 데이터셋 등 세 가지 도전적인 데이터셋에서 최신 기준(SOTA) 성능을 달성하였다.

액션 세그멘테이션을 위한 크로스-엔하ancement 트랜스포머 | 최신 연구 논문 | HyperAI초신경