2달 전

TempCLR: 대조 학습을 이용한 시계열 정렬 표현

Yang, Yuncong ; Ma, Jiawei ; Huang, Shiyuan ; Chen, Long ; Lin, Xudong ; Han, Guangxing ; Chang, Shih-Fu
TempCLR: 대조 학습을 이용한 시계열 정렬 표현
초록

비디오 표현 학습은 영상-텍스트 사전 학습에서 제로샷 전송에 성공적으로 적용되었습니다. 이 방법에서는 각 문장이 공통 특성 공간에서 짝을 이루는 비디오 클립과 가깝게 학습됩니다. 긴 비디오의 경우, 문장들이 비디오의 서로 다른 구간을 설명하는 단락이 주어지면 모든 문장-클립 쌍을 매칭함으로써 단락과 전체 비디오가 암시적으로 일치됩니다. 그러나 이러한 단위 수준의 비교는 전역 시간적 맥락을 무시할 수 있으며, 이는 일반화 능력을 제한하게 됩니다.본 논문에서는 전체 비디오와 단락을 명시적으로 비교하기 위한 대조 학습 프레임워크인 TempCLR를 제안합니다. 비디오/단락이 클립/문장 시퀀스로 표현되며, 시간 순서 제약 하에 동적 시간 왜곡(Dynamic Time Warping)을 사용하여 문장-클립 쌍 간의 최소 누적 비용을 계산하여 시퀀스 수준 거리를 구합니다. 시간 동역학을 탐색하기 위해, 우리는 시간 세분화에 따라 비디오 클립을 섞음으로써 시간적 연속성을 깨뜨립니다. 그런 다음, 시간 정보를 인식하는 클립/문장의 표현을 얻어 시퀀스 일치를 용이하게 합니다.또한, 우리의 접근 방식은 비디오와 단락에 대한 사전 학습뿐만 아니라 비디오 인스턴스 간의 일치성에도 일반화될 수 있습니다. 우리는 비디오 검색, 행동 단계 위치 추정, 및 소수 샘플 행동 인식 과제에서 우리의 접근 방식을 평가하였으며, 세 가지 과제 모두에서 일관된 성능 향상을 달성하였습니다. 상세한 아블레이션 연구(ablation studies)를 통해 접근 방식 설계의 타당성을 입증하였습니다.

TempCLR: 대조 학습을 이용한 시계열 정렬 표현 | 최신 연구 논문 | HyperAI초신경