Weakly Supervised Temporal Action
Weakly-supervised temporal action localization은 컴퓨터 비전 분야의 하위 작업으로, 비디오 레벨 라벨만을 사용하여 동작이 비디오에서 언제 발생하는지를 식별하고 위치를 결정하는 데 초점을 맞춥니다. 이 작업의 목표는 프레임 레벨 또는 세그먼트 레벨 주석에 의존하지 않고 비디오의 전반적인 특성을 학습하여 동작의 시작 시간과 종료 시간을 정확히 파악하는 것입니다. 이는 데이터 주석 비용을 줄이는 데 도움이 되며, 모델의 일반화 능력을 향상시켜 대규모 비디오 분석 및 이해에 가치를 더합니다.