15일 전
다중모달 융합을 위한 어텐션 버블넥
Arsha Nagrani, Shan Yang, Anurag Arnab, Aren Jansen, Cordelia Schmid, Chen Sun

초록
인간은 시각과 청각과 같은 여러 감각 모달리티로부터 유입되는 고차원 입력을 동시에 처리하고 융합함으로써 세계를 인지한다. 반면 기계 인지 모델은 일반적으로 특정 모달리티에 국한되어 단모달 기준에 최적화되어 있으며, 이로 인해 각 모달리티의 최종 표현 또는 예측을 후기적으로 융합하는('late-fusion') 방식이 다모달 영상 분류에서 여전히 주류를 이루고 있다. 본 연구에서는 여러 층에서 모달리티 융합을 수행하는 새로운 트랜스포머 기반 아키텍처를 제안한다. 이 아키텍처는 '융합 버블넥(Bottleneck)'을 활용하여, 전통적인 쌍별 자기주의(self-attention) 방식과는 달리, 서로 다른 모달리티 간 정보 흐름을 소수의 버블넥 잠재 변수를 통해 통과시키도록 강제한다. 이로 인해 모델은 각 모달리티에서 가장 관련성 있는 정보를 통합하고 압축해야 하며, 필수적인 정보만 공유하도록 유도된다. 우리는 이러한 전략이 융합 성능을 향상시키면서 동시에 계산 비용을 감소시킴을 확인하였다. 광범위한 아블레이션 연구를 수행한 결과, Audioset, Epic-Kitchens, VGGSound를 포함한 여러 음성-시각 분류 벤치마크에서 최신 기술(SOTA) 수준의 성능을 달성하였다. 모든 코드와 모델은 공개될 예정이다.