17일 전

ASPnet: 다중 데이터 소스의 공유-개별 표현을 통한 동작 분할

{Danail Stoyanov, Imanol Luengo, Abdolrahim Kadkhodamohammadi, Beatrice van Amsterdam}
ASPnet: 다중 데이터 소스의 공유-개별 표현을 통한 동작 분할
초록

최근의 행동 분할(state-of-the-art) 기법들은 주로 단일 입력 모달리티 또는 다수의 데이터 소스를 단순하게 융합하는 방식에 기반하고 있다. 그러나 보완적인 정보를 효과적으로 융합할 경우, 분할 모델의 성능을 강화하고 센서 노이즈에 더 강건하며, 더 적은 학습 데이터로도 정확도를 높일 수 있다. 행동 분할을 위한 다중 모달 표현 학습을 개선하기 위해, 우리는 다중 스트림 분할 모델의 은닉 특징을 모달리티 공유 구성 요소(modality-shared components)와 사적 구성 요소(private components)로 분리하는 방식을 제안한다. 여기서 공유 구성 요소는 다양한 데이터 소스 간의 공통 정보를 포함하고, 사적 구성 요소는 각 모달리티 고유의 정보를 담는다. 이후 우리는 주어진 데이터 내 장거리 시간적 의존성을 포착하기 위해 어텐션 블로킹(attention bottleneck)을 사용하면서도, 연속적인 처리 계층에서 분리된 구조를 유지한다. 50salads, Breakfast, RARP45 데이터셋에서의 평가 결과, 제안한 다중 모달 접근법은 다중 뷰 및 다중 모달 데이터 소스 모두에서 다양한 데이터 융합 기준 모델을 능가하며, 최신 기술 대비 경쟁력 있거나 더 우수한 성능을 달성하였다. 또한 본 모델은 추가적 센서 노이즈에 대해 더 강건하며, 학습 데이터가 적은 경우에도 강력한 비디오 기반 모델과 비슷한 성능을 달성할 수 있다.