원거리 감독을 통한 절차적 활동 인식 학습

본 논문에서는 긴 영상(최대 수 분에 이르는 영상)을 대상으로 다양한 세부 단계로 구성된 복잡한 활동(예: 다양한 요리 레시피 수행, 다양한 주택 개선 작업, 다양한 예술 및 수공예 작업 등)을 분류하는 문제를 다룬다. 이러한 활동을 정확히 분류하기 위해서는 단순히 작업을 구성하는 개별 단계를 인식하는 것뿐만 아니라, 그 단계들 간의 시계열적 의존성도 포착해야 한다. 이 문제는 전통적인 행동 분류와 크게 다르다. 기존의 행동 분류 모델은 일반적으로 몇 초 내외의 짧은 영상에 대해 학습되며, 단순한 원자적 행동들만 포함하도록 수동으로 자르는 영상 데이터셋을 사용한다. 단계 레이블을 활용하면 절차적 활동의 개별 단계를 인식할 수 있는 모델을 학습할 수 있지만, 긴 영상에서 시계열 경계를 수동으로 레이블링하는 데 드는 비용이 막대하기 때문에 기존의 대규모 데이터셋에는 이러한 단계별 세그먼트 레이블이 포함되어 있지 않다. 이 문제를 해결하기 위해, 다양한 복잡한 활동 수행을 위한 단계를 상세히 설명한 텍스트 지식 기반(wikiHow)의 원격 감독(distant supervision)을 활용하여 지침 영상 내에서 단계를 자동으로 식별하는 방법을 제안한다. 본 연구의 방법은 언어 모델을 사용하여 영상에서 노이즈가 포함된 자동 음성 인식 결과를 지식 기반 내의 단계 설명과 매칭시킨다. 실험을 통해, 수동 레이블링 없이 자동으로 레이블링된 단계를 인식하도록 학습된 영상 모델이 네 가지 하류 작업(절차적 활동 인식, 단계 분류, 단계 예측, 에고센트릭 영상 분류)에서 우수한 일반화 성능을 달성함을 입증하였다.