2달 전

두 스트림 비디오 분류와 크로스 모달리티 주의력

Lu Chi; Guiyu Tian; Yadong Mu; Qi Tian
두 스트림 비디오 분류와 크로스 모달리티 주의력
초록

다중 모달리티 정보의 융합은 비디오 분류에서 효과적으로 중요한 개선을 가져올 수 있다는 것이 알려져 있습니다. 그러나 지금까지 가장 인기 있는 방법은 여전히 각 스트림의 예측 점수를 마지막 단계에서 간단히 융합하는 것입니다. 이에 대한 타당한 질문은 다른 모달리티 간 정보를 융합하는 더 효과적인 방법이 존재하는지 여부입니다. 자연어 처리 분야에서 주의 메커니즘(attention mechanism)의 발전으로 인해 컴퓨터 비전 분야에서도 주의 메커니즘을 활용한 많은 성공적인 응용 사례가 등장했습니다. 본 논문에서는 두 스트림보다 더 효과적으로 다른 모달리티로부터 정보를 획득할 수 있는 크로스-모달리티 주의 연산(cross-modality attention operation)을 제안합니다. 이에 따라 CMA 블록이라는 호환 가능한 블록을 구현하였으며, 이는 우리가 제안한 주의 연산의 래퍼(wrapper)입니다. CMA 블록은 여러 기존 아키텍처에 쉽게 통합될 수 있습니다. 실험에서는 비디오 분류에서 널리 사용되는 두 스트림과 비국소(non-local) 모델과 비교하여 우리의 방법을 종합적으로 평가하였습니다. 모든 실험 결과는 우리의 제안된 방법이 강력한 성능 우위를 보임을 명확히 입증하였습니다. 또한, 주의 맵(attention map) 시각화를 통해 CMA 블록의 장점을 분석하였으며, 이는 직관적으로 블록이 최종 예측에 어떻게 도움을 주는지를 보여줍니다.

두 스트림 비디오 분류와 크로스 모달리티 주의력 | 최신 연구 논문 | HyperAI초신경