2달 전
순서 인식 행동 세분화: 비지도 프레임-세그먼트 정렬을 통한 방법
Quoc-Huy Tran; Ahmed Mehmood; Muhammad Ahmed; Muhammad Naufil; Anas Zafar; Andrey Konin; M. Zeeshan Zia

초록
본 논문은 시간적 활동 분할을 위한 비지도 트랜스포머 기반 프레임워크를 제시하며, 이 프레임워크는 프레임 수준의 힌트뿐만 아니라 세그먼트 수준의 힌트도 활용합니다. 이는 기존 방법들이 주로 프레임 수준 정보에만 의존하는 것과 대조됩니다. 우리의 접근 방식은 트랜스포머 인코더를 통해 프레임별 행동 클래스를 추정하는 프레임 수준 예측 모듈로 시작됩니다. 이 모듈은 시간적 최적 운송을 통해 비지도 방식으로 학습됩니다. 세그먼트 수준 정보를 활용하기 위해, 우리는 세그먼트 수준 예측 모듈과 프레임-세그먼트 정렬 모듈을 사용합니다. 전자는 비디오 스크립트를 추정하기 위한 트랜스포머 디코더를 포함하고 있으며, 후자는 프레임 수준 특징과 세그먼트 수준 특징을 매칭하여 순열 인식 분할 결과를 생성합니다. 또한 시간적 최적 운송에서 영감을 받아, 위의 모듈들을 비지도 학습하기 위한 간단하면서도 효과적인 의사 라벨(pseudo labels)을 도입하였습니다. 4개의 공개 데이터셋인 50 Salads, YouTube Instructions, Breakfast, 그리고 Desktop Assembly에서 수행한 실험 결과, 우리의 접근 방식이 비지도 활동 분할에서 기존 방법들과 비교해 유사하거나 더 우수한 성능을 보였습니다.