2달 전
모든 순간이 중요하다: 복잡한 비디오에서 행동의 밀도 높고 상세한 라벨링
Serena Yeung; Olga Russakovsky; Ning Jin; Mykhaylo Andriluka; Greg Mori; Li Fei-Fei

초록
행동 인식에서 모든 순간이 중요합니다. 비디오 내의 인간 활동을 완전히 이해하기 위해서는 발생하는 행동에 따라 각 프레임을 라벨링하고, 비디오 시퀀스 전체에 여러 라벨을 밀집하게 배치해야 합니다. 이 문제를 연구하기 위해 기존의 THUMOS 데이터셋을 확장하여 MultiTHUMOS라는 새로운 데이터셋을 소개합니다. 이 데이터셋은 제약 없이 인터넷에서 수집된 비디오에 대한 밀집한 라벨을 포함하고 있습니다. 여러 개의 밀집한 라벨을 모델링하는 것은 클래스 내외의 시간적 관계로부터 이익을 얻습니다. 우리는 이러한 시간적 관계를 다중 입력 및 출력 연결을 통해 모델링하기 위한 새로운 변형의 장단기 기억(LSTM) 딥 네트워크를 정의합니다. 실험 결과, 이 모델은 행동 라벨링 정확도를 향상시키며, 구조화된 검색부터 행동 예측까지 다양한 깊은 이해 작업을 가능하게 함을 보여주었습니다.