2달 전
장기 비디오 동작 인식을 위한 약한 지도 하에의 엔드투엔드 학습 방향성 연구
Zhou, Jiaming ; Li, Hanjun ; Lin, Kun-Yu ; Liang, Junwei

초록
장기 비디오에서 엔드투엔드 행동 인식 모델을 개발하는 것은 장기 비디오 행동 이해의 기초적이고 중요한 부분입니다. 전체 장기 비디오에서 엔드투엔드 학습을 수행하는 비용이 감당할 수 없기 때문에, 기존 연구에서는 주로 장기 비디오에서 잘라낸 짧은 클립에서 모델을 학습시킵니다. 그러나 이 "잘라내고-그런 다음-학습" 방식은 클립 단위로 감독하기 위한 행동 구간 주석이 필요합니다. 즉, 어떤 행동이 클립으로 잘라져 들어갔는지를 알아야 합니다. 불행히도 이러한 주석을 수집하는 것은 매우 비싸고, 대규모로 모델 학습을 방해합니다. 이를 해결하기 위해 본 연구는 오직 비디오 단위의 행동 카테고리 라벨만 사용하여 장기 비디오에서 인식 모델을 학습시키는 약한 지도(weakly supervised) 엔드투엔드 프레임워크를 구축하고자 합니다. 장기 비디오 내에서 행동이 정확히 언제 발생하는지 알 수 없는 상황에서, 제안된 약한 지도 프레임워크인 AdaptFocus는 행동이 어디서 그리고 얼마나 가능성이 있는지를 추정하여 정보가 풍부한 행동 클립에 집중하여 엔드투엔드 학습을 수행합니다. 제안된 AdaptFocus 프레임워크의 효과성은 세 가지 장기 비디오 데이터셋에서 입증되었습니다. 또한, 하류 장기 비디오 작업들을 위해 AdaptFocus 프레임워크는 더 견고한 장기 비디오 특성을 추출하기 위한 약한 지도 특성 추출 파이프라인을 제공하여, 하류 작업들의 최신 방법론들이 크게 발전하였습니다. 우리는 코드와 모델을 공개할 예정입니다.