2달 전
마진화된 평균 주의 네트워크를 이용한 약간 지도 학습
Yuan Yuan; Yueming Lyu; Xi Shen; Ivor W. Tsang; Dit-Yan Yeung

초록
약한 감독 하의 시계열 행동 위치 추정에서, 이전 연구들은 가장 눈에 띄는 영역의 과대평가로 인해 각 행동 전체에 대한 밀도가 높고 완전한 영역을 정확히 찾지 못하는 문제를 겪었습니다. 이러한 문제를 완화하기 위해, 우리는 원칙적으로 가장 눈에 띄는 영역의 주요 반응을 억제하는 마진화된 평균 주의 네트워크(MAAN, Marginalized Average Attentional Network)를 제안합니다. MAAN은 새로운 마진화된 평균 집계(MAA, Marginalized Average Aggregation) 모듈을 사용하여, 엔드투엔드 방식으로 잠재적인 구분 확률 세트를 학습합니다. MAA는 비디오 스니펫 특징에서 잠재적인 구분 확률 세트에 따라 여러 부분 집합을 샘플링하고, 모든 평균 부분 집합 특징의 기대값을 계산합니다. 이론적으로, 우리는 MAA 모듈이 학습된 잠재적 구분 확률을 통해 가장 눈에 띄는 영역과 다른 영역 간의 반응 차이를 성공적으로 줄임을 증명하였습니다. 따라서, MAAN은 더 나은 클래스 활성화 시퀀스를 생성하고 비디오에서 밀도가 높고 완전한 행동 영역을 식별할 수 있습니다. 또한, 우리는 MAA 구성을 O($2^T$)에서 O($T^2$)로 복잡도를 줄이는 빠른 알고리즘을 제안하였습니다. 두 개의 대규모 비디오 데이터셋에 대한 광범위한 실험 결과, 우리의 MAAN이 약한 감독 하의 시계열 행동 위치 추정에서 우수한 성능을 보임을 확인하였습니다.