액션 세그멘테이션을 위한 공동 자기지도 학습 시간 도메인 적응

최근 완전히 감독된 동작 분할 기법의 발전에도 불구하고, 성능은 여전히 완전히 만족스럽지 못한 상황이다. 주요 과제 중 하나는 공간-시간적 변이 문제(예: 동일한 활동을 수행하는 사람들 간에 다양한 방식이 존재함)이다. 이를 해결하기 위해, 공간-시간적 변이로 인해 발생하는 도메인 간 차이를 고려하여 동작 분할 작업을 교차 도메인 문제로 재정의함으로써 레이블이 없는 비디오를 활용한다. 이러한 도메인 간 차이를 줄이기 위해, 국소적 및 전역적 시간 동역학을 포함한 특징 공간을 공동으로 정렬하는 두 가지 자기지도 학습 보조 과제(이진 도메인 예측 및 순차적 도메인 예측)를 포함하는 자기지도 시간 도메인 적응(Self-Supervised Temporal Domain Adaptation, SSTDA)을 제안한다. 이는 기존의 도메인 적응(DA) 기법보다 더 우수한 성능을 달성한다. 세 가지 도전적인 벤치마크 데이터셋(GTEA, 50Salads, Breakfast)에서 SSTDA는 현재 최고 성능을 기록하는 기법보다 크게 우수한 결과를 보였으며, 예를 들어 F1@25 점수 기준으로 Breakfast에서는 59.6%에서 69.1%로, 50Salads에서는 73.4%에서 81.5%로, GTEA에서는 83.6%에서 89.1%로 향상되었다. 또한, 유사한 성능을 달성하기 위해 레이블이 붙은 학습 데이터의 65%만을 사용하면 되며, 이는 다양한 변이에 걸쳐 레이블이 없는 타깃 비디오에 적응하는 것이 얼마나 유용한지를 보여준다. 소스 코드는 https://github.com/cmhungsteve/SSTDA 에서 공개되어 있다.