
초록
최근, 편집되지 않은 비디오에서 행동을 시간적으로 감지하고 분할하는 작업에 대한 관심이 증가하고 있습니다. 이 맥락에서 발생하는 하나의 문제는 훈련용 주석을 생성하기 위해 행동 경계를 정의하고 라벨링해야 하는 필요성으로, 이는 매우 시간과 비용이 많이 드는 과정입니다. 이러한 문제를 해결하기 위해, 우리는 편집되지 않은 비디오 시퀀스에서 행동 클래스를 학습하는 비지도 접근법을 제안합니다. 이를 위해, 프레임별 특성을 연속적인 시간적 임베딩으로 사용하여 활동의 순차적 성질을 활용합니다. 임베딩이 생성한 잠재 공간을 기반으로, 모든 비디오에 걸쳐 의미 있는 행동 클래스에 해당하는 시간적 세그먼트 클러스터를 식별합니다. 이 접근법은 Breakfast 데이터셋, YouTube Instructions, 그리고 50Salads 데이터셋이라는 세 가지 도전적인 데이터셋에서 평가되었습니다. 이전 연구에서는 비디오가 동일한 고수준 활동을 포함한다고 가정했지만, 우리는 제안된 접근법이 비디오 내용이 알려지지 않은 보다 일반적인 환경에서도 적용될 수 있음을 추가로 보여주었습니다.