
초록
행동 분할 분야의 주요 진전은 완전한 지도 학습을 위한 밀집 레이블링 데이터에 기인하고 있다. 프레임 수준의 행동에 대한 수동 레이블링은 시간이 오래 걸리고 어려운 작업이므로, 보다 쉽게 확보할 수 있는 보조적인 레이블 없는 영상 데이터를 활용하는 방안을 제안한다. 이 문제를 도메인 적응(Domain Adaptation, DA) 문제로 재정의함으로써 이를 해결하고자 한다. 최근 몇 년간 다양한 DA 기법이 제안되었지만, 대부분이 공간적 방향(스페이셜 방향)에 국한되어 있다. 따라서 본 연구에서는 도메인 간 프레임 수준 및 영상 수준의 임베딩 특징 공간을 동시에 정렬하는 혼합 시간적 도메인 적응(Mixed Temporal Domain Adaptation, MTDA)을 제안한다. 또한 도메인 주의 메커니즘을 도입하여, 도메인 간 차이가 더 큰 프레임 수준 특징에 집중적으로 정렬함으로써 보다 효과적인 도메인 적응을 달성한다. 최종적으로 제안된 방법을 GTEA, 50Salads, Breakfast 세 가지 도전적인 데이터셋에서 평가하였으며, 모든 데이터셋에서 현재 최고 성능(SOTA) 기법을 크게 능가함을 검증하였다. 예를 들어 GTEA 데이터셋에서 F1@50 지표는 6.4% 향상되었고, 에디트 스코어는 6.8% 향상되었다.