2달 전
제안 기반 다중 인스턴스 학습을 이용한 약하게 지도된 시계열 행동 위치 추정
Huan Ren; Wenfei Yang; Tianzhu Zhang; Yongdong Zhang

초록
약한 지도를 받는 시계열 행동 위치 추정은 훈련 중 비디오 수준의 카테고리 라벨만을 사용하여 비디오에서 행동을 위치 추적하고 인식하는 것을 목표로 합니다. 인스턴스 수준의 주석 없이 대부분의 기존 방법은 비디오 라벨에 의해 세그먼트 예측이 감독되는 세그먼트 기반 다중 인스턴스 학습(S-MIL) 프레임워크를 따릅니다. 그러나 훈련 중 세그먼트 수준 점수를 얻기 위한 목표와 테스트 중 제안 수준 점수를 얻기 위한 목표가 일관되지 않아 최적의 결과를 얻지 못하는 경우가 많습니다. 이 문제를 해결하기 위해, 우리는 훈련 및 테스트 단계에서 후보 제안을 직접 분류하는 새로운 제안 기반 다중 인스턴스 학습(P-MIL) 프레임워크를 제안합니다. 이 프레임워크는 다음과 같은 세 가지 핵심 설계를 포함합니다: 1) 주변 대조 정보를 고려하여 차별적인 짧은 제안을 억제하는 주변 대조 특성 추출 모듈, 2) 완전성 의사 라벨의 안내 하에 저품질 제안을 억제하는 제안 완전성 평가 모듈, 3) RGB와 FLOW 모달리티의 보완성을 활용하여 강건한 검출을 달성하는 인스턴스 수준 순위 일관성 손실. THUMOS14와 ActivityNet 등 두 개의 도전적인 벤치마크에서 수행된 광범위한 실험 결과는 우리 방법론의 우수한 성능을 입증하였습니다.