2달 전
비지도 동작 세분화를 위한 연합 표현 학습 및 온라인 클러스터링
Sateesh Kumar; Sanjay Haresh; Awais Ahmed; Andrey Konin; M. Zeeshan Zia; Quoc-Huy Tran

초록
우리는 비지도 활동 분할을 위한 새로운 접근 방식을 제시합니다. 이 접근 방식은 비디오 프레임 클러스터링을 사전 작업으로 사용하여 표현 학습과 온라인 클러스터링을 동시에 수행합니다. 이는 기존 연구에서 표현 학습과 클러스터링이 주로 순차적으로 이루어지는 것과 대조됩니다. 우리는 시간적 정보를 활용하기 위해 시간 최적 운송(Temporal Optimal Transport)을 사용합니다. 특히, 표준 최적 운송 모듈에서 의사 라벨 클러스터 할당을 계산하는 과정에 활동의 시간 순서를 유지하는 시간 정규화 항을 통합하였습니다. 이러한 시간 최적 운송 모듈은 우리의 접근 방식이 비지도 활동 분할에 효과적인 표현을 학습하도록 돕습니다. 또한, 기존 방법들은 전체 데이터셋의 학습된 특징들을 저장한 후 오프라인으로 클러스터링해야 하는 반면, 우리의 접근 방식은 온라인으로 한 미니 배치씩 처리합니다. 50-Salads, YouTube Instructions, Breakfast 등 세 개의 공개 데이터셋과 우리 데이터셋인 Desktop Assembly에서의 광범위한 평가 결과는, 우리의 접근 방식이 상당히 적은 메모리 제약에도 불구하고 기존 방법들과 동등하거나 우수한 성능을 보임을 입증하였습니다. 우리의 코드와 데이터셋은 연구 웹사이트에서 제공됩니다: https://retrocausal.ai/research/