Glimpse Clouds: 비정형 특징점으로부터의 인간 활동 인식

우리는 테스트 시에 어떤 자세 정보도 사용하지 않고 내부적으로 명시적으로 자세 정보를 계산하지 않는 RGB 데이터에서 인간 활동 인식을 위한 방법을 제안합니다. 대신, 시각적 주의 모듈이 각 프레임에서 일시적인 시퀀스(glimpse sequences)를 예측하도록 학습됩니다. 이러한 일시들은 분류된 활동과 관련된 장면 내의 관심 지점을 나타냅니다. 일시 위치에는 공간적 일관성이 강제되지 않으므로, 이 모듈은 각 프레임에서 다른 지점을 탐색하고 시각 정보를 검토하는 과정을 더 잘 최적화할 수 있는 자유가 있습니다. 이러한 비구조화된 데이터를 추적하고 순차적으로 통합하는 것은 도전적인 문제로, 이를 해결하기 위해 일시 집합과 반복적인 추적/인식 작업자(recurrent tracking/recognition workers) 집합을 분리하였습니다. 이러한 작업자들은 일시들을 받아서 이후의 움직임 추적과 활동 예측을 공동으로 수행합니다. 일시들은 외부 메모리 모듈을 사용하여 공간, 시간 및 특성 공간(feature space)에서 할당의 일관성을 최적화하면서 부드럽게 작업자들에게 할당됩니다. 즉, 각 일시 지점은 모든 기존 작업자에게 할당되지만 그 중요성은 다릅니다. 우리의 방법은 현재까지 가장 큰 인간 활동 인식 데이터셋인 NTU RGB+D 데이터셋과 작은 인간 행동 인식 데이터셋인 노스웨스턴-유CLA 다중 뷰 행동 3D 데이터셋(Northwestern-UCLA Multiview Action 3D Dataset)에서 기존 최신 방법들을 능가합니다. 우리의 코드는 공개되어 있으며, 다음 링크에서 확인 가능합니다: https://github.com/fabienbaradel/glimpse_clouds.