
초록
우리는 긴, 편집되지 않은 비디오의 행동 세그멘테이션 작업을 위해 최적 운송 문제를 해결하는 새로운 접근 방식을 제안합니다. 시간 일관성 사전 정보를 Gromov-Wasserstein 문제에 인코딩함으로써, 비디오 프레임과 행동 클래스 간의 노이즈가 포함된 친화도/매칭 비용 행렬에서 시간적으로 일관된 세그멘테이션을 디코딩할 수 있습니다. 이전 방법들과 달리, 우리의 방법은 비디오의 행동 순서를 알고 있어야만 시간 일관성을 얻는 것이 필요하지 않습니다. 또한, 우리의 결과적인 (융합된) Gromov-Wasserstein 문제는 몇 번의 투사 미러 디센트(projected mirror descent) 반복을 통해 GPU에서 효율적으로 해결할 수 있습니다. 우리는 비지도 학습 환경에서 우리 방법의 효과를 시연하며, 여기서 우리 방법은 자기 학습을 위한 의사 라벨(pseudo-labels) 생성에 사용됩니다. 우리는 Breakfast, 50-Salads, YouTube Instructions 및 Desktop Assembly 데이터셋에서 우리의 세그멘테이션 접근 방식과 비지도 학습 파이프라인을 평가하여, 비지도 비디오 행동 세그멘테이션 작업에 대한 최신 연구 결과(state-of-the-art results)를 얻었습니다.