15일 전

다중 규모 다중 모달 트랜스포머를 활용한 다중 모달 행동 인식

{Mohamed Omar, Linda Liu, Xiang Hao, Xiaohang Sun, Jingru Yi, Wentao Zhu}
다중 규모 다중 모달 트랜스포머를 활용한 다중 모달 행동 인식
초록

행동 인식은 수년에 걸쳐 활발한 연구 주제로 여겨져 왔으나, 기존의 대부분의 접근 방식은 인간이 시각과 청각 신호를 동시에 효과적으로 처리하는 방식과 달리, 단지 비디오 모달리티만을 활용하고 있다. 이는 최근의 모델들이 시각적으로 명확하게 정의된 행동에 한정된 응용에만 활용될 수 있음을 의미한다. 반면에, 청각과 비디오 신호는 계층적인 구조로 인식될 수 있으며, 예를 들어 샘플링 시간점별 오디오 신호에서 오디오 활동, 그리고 오디오 분류의 전체 카테고리로 이어지는 방식이다. 본 연구에서는 계층적 표현 학습을 활용하는 다스케일 다모달 트랜스포머(Multiscale Multimodal Transformer, MMT)를 개발한다. 특히 MMT는 새로운 다스케일 오디오 트랜스포머(Multiscale Audio Transformer, MAT)와 다스케일 비디오 트랜스포머로 구성되어 있다. 또한, 두 모달리티 간의 강건한 다모달 표현 융합을 위해 특별히 설계된 다모달 감독형 대조 목표 함수인 오디오-비디오 대조 손실(Audio-Video Contrastive Loss, AVC)과 내모달 대조 손실(Intra-modal Contrastive Loss, IMC)을 제안한다. MMT는 외부 학습 데이터 없이 Kinetics-Sounds, Epic-Kitchens-100, VGGSound 세 가지 데이터셋에서 각각 상위 1 정확도( Top-1 accuracy) 기준으로 기존 최고 성능 모델보다 7.3%, 1.6%, 2.1% 우수한 성능을 기록하였다. 더불어, 제안한 MAT는 세 공개 벤치마크 데이터셋에서 AST보다 각각 22.2%, 4.4%, 4.7% 높은 성능을 달성하였으며, 연산량(FLOPs 기준) 기준으로는 3배 더 효율적인 성능을 보였다. 광범위한 아블레이션 연구 및 시각화 결과를 통해, 제안된 MMT가 비디오와 오디오 신호의 조합으로부터 의미적으로 더 분리 가능한 특징 표현을 효과적으로 학습할 수 있음을 입증하였다.

다중 규모 다중 모달 트랜스포머를 활용한 다중 모달 행동 인식 | 최신 연구 논문 | HyperAI초신경