3달 전
Bubblenet: 활동 인식을 위한 분산 순환 구조
{William R. Schwartz, Victor H. C. Melo, Igor L. O. Bastos}
초록
이 논문은 영상에서 인간의 행동 인식을 수행하기 위한 새로운 접근법을 제안하며, 외형 정보와 광학 흐름 정보를 입력으로 사용하는 깊은 순환 신경망을 활용한다. 제안하는 방법은 새로운 아키텍처인 BubbleNET을 도입하며, 이는 순환 계층을 입력 데이터의 본질적으로 관련된 세그먼트들에 따라 여러 모듈(이를 '버블'이라 부름)로 분산시킨 구조를 기반으로 하며, 각 버블의 기여도를 조절하는 역할을 수행하는 '압축-확장 전략'(squeeze-and-excitation 기반)을 기반으로 한 주의력 메커니즘을 포함한다. 이를 통해 입력 데이터의 핵심적인 상관 관계를 갖는 부분들로부터 정보를 통합하여, 각 행동을 특징짓는 구성 요소의 서명(signature)을 생성하고자 한다. 다양한 활용도가 높은 행동 인식 데이터셋에서 수행된 실험 결과는 이러한 서명이 실제로 존재함을 입증하며, 각 데이터셋 클래스에 대한 버블 활성화 지도(maps of bubble activations)를 통해 그 존재가 명확히 확인된다. 기존 문헌의 방법들과의 비교를 위해 평균 정확도(mean accuracy)를 기준으로 평가하였으며, UCF-101, YUP++ 및 HMDB-51 데이터셋에서 각각 97.62%, 91.70%, 82.60%의 정확도를 기록하여 최신 기술 수준(state-of-the-art)의 성능을 달성하였다.