
본 논문에서는 자기 감독(self-supervision)의 개념을 확장하여, RGB 프레임을 입력으로 받아 행동 개념과 보조 설명자(auxiliary descriptors)를 예측하도록 학습하는 방법을 제안합니다. 예를 들어, 객체 설명자를 예측하기 위한 소위 환각 스트림(hallucination streams)이 분류 계층에 동시에 입력되어 테스트 단계에서 네트워크를 지원하도록 학습됩니다. 우리는 두 가지 설명자를 설계하고 환각하였습니다. 하나는 훈련 비디오에 적용된 네 가지 인기 있는 객체 검출기(object detectors)를 활용하고, 다른 하나는 이미지 및 비디오 수준의 주목성 검출기(saliency detectors)를 활용합니다. 첫 번째 설명자는 객체 검출기와 ImageNet 클래스 예측 점수, 신뢰도 점수, 바운딩 박스(bounding boxes)의 공간 위치 및 프레임 인덱스(frame indexes)를 인코딩하여 각 비디오의 특징들의 시공간 분포를 포착합니다. 두 번째 설명자는 주목성 맵(saliency maps)의 공간-각도 그래디언트 분포와 강도 패턴(intensity patterns)을 인코딩합니다.확률 분포의 특성 함수(characteristic function)에서 영감을 얻어, 위 중간 설명자들에 대해 네 가지 통계적 모멘트(statistical moments)를 포착하였습니다. 평균(mean), 공분산(covariance), 삼차왜도(coskewness), 사차왜도(cokurtosis)의 계수들이 각각 특징 벡터(feature vectors) 차원에 대해 선형적으로, 2차적으로, 3차적으로, 4차적으로 증가하므로, 공분산 행렬은 그 주요 n' 고유벡터(eigenvectors)(즉, 부분 공간(subspace))로 표현되며, 비용이 많이 드는 삼차왜도/사차왜도 대신 왜도(skewness)/첨도(kurtosis)를 포착하였습니다. 이러한 방법으로 우리는 Charades 및 EPIC-Kitchens 등 다섯 개의 유명 데이터셋에서 최고 수준의 성능을 달성하였습니다.