17일 전
AssembleNet++: 주의 연결을 통한 모달리티 표현의 조합
Michael S. Ryoo, AJ Piergiovanni, Juhana Kangaspunta, Anelia Angelova

초록
우리는 다음과 같은 두 가지 기능을 갖춘 강력한 비디오 모델 가족을 개발했다. (i) 의미적 객체 정보와 원시적인 외관 및 운동 특징 간의 상호작용을 학습할 수 있으며, (ii) 네트워크의 각 합성곱 블록에서 특징의 중요도를 더 잘 학습하기 위해 주의(attention) 메커니즘을 활용할 수 있다. 새로운 네트워크 구성 요소인 피어-어텐션(peak-attention)을 도입하였으며, 이는 다른 블록 또는 입력 모달리티를 활용하여 주의 가중치를 동적으로 학습한다. 사전 훈련 없이도, 우리의 모델은 연속 영상이 포함된 표준 공개 활동 인식 데이터셋에서 기존 연구들을 능가하며, 새로운 최고 성능 기준을 수립하였다. 또한, 객체 모달리티에서의 신경 연결과 피어-어텐션의 사용이 다양한 기존 아키텍처에 일반적으로 적용 가능하며, 각 아키텍처의 성능을 향상시킨다는 점을 확인하였다. 본 모델은 명시적으로 AssembleNet++로 명명하였다. 코드는 다음 링크에서 공개될 예정이다: https://sites.google.com/corp/view/assemblenet/