18일 전

시공간 주의를 활용한 효과적인 다중 모달리티 관계 표현을 통한 그룹 활동 인식

{AND XU LIU, Dong Wang, Meng Jian, Lifang Wu, HENG FU, Dezhong Xu}
초록

그룹 활동 인식은 스포츠 분석, 자율 주행 차량, CCTV 감시 시스템 및 영상 요약 시스템 등 광범위한 응용 분야에서 주목받고 있다. 기존의 대부분의 방법들은 일반적으로 외형적 특징(appearance features)에 의존하며, 그 뒤에 숨겨진 상호작용 정보를 고려하는 경우는 드물다. 본 연구에서는 시간-공간 주의(attention)를 활용한 다중 모달 관계 표현을 기반으로 한 새로운 그룹 활동 인식 기술을 제안한다. 먼저, 개체의 외형 특징과 기하학적 정보 간의 상호작용을 통해 장면 내 모든 개체를 동시에 처리하는 개체 관계 모듈을 도입한다. 이를 통해 개체 간의 관계를 효과적으로 모델링할 수 있다. 둘째, 효과적인 운동 특징을 추출하기 위해 동작 손실(action loss)을 감독 신호로 사용하여 광학 흐름(optical flow) 네트워크를 미세 조정한다. 이후, 개체 관계와 운동 표현을 효율적으로 인코딩하고 구분 가능한 프레임 수준 특징 표현을 형성하기 위해 두 가지 유형의 추론 모델인 opt-GRU와 relation-GRU를 제안한다. 마지막으로, 다양한 가중치로 프레임 수준 특징을 통합하여 효과적인 비디오 수준 표현을 형성하기 위한 주의 기반 시간 집계 레이어를 제안한다. 제안된 방법은 두 개의 대표적 데이터셋인 Volleyball 데이터셋과 Collective Activity 데이터셋에서 광범위한 실험을 수행하였으며, 모두 최고 수준의 성능을 달성하였다.