2달 전

UAVM: 오디오 및 시각 모델의 통합을 향하여

Yuan Gong; Alexander H. Liu; Andrew Rouditchenko; James Glass

초록

전통적인 오디오-비주얼 모델은 독립된 오디오와 비디오 분지를 가지고 있습니다. 본 연구에서는 통합 오디오-비주얼 모델(Unified Audio-Visual Model, UAVM)을 설계하여 오디오와 비주얼 분지를 통합하였습니다. UAVM은 VGGSound에서 새로운 최고 수준의 오디오-비주얼 이벤트 분류 정확도인 65.8%를 달성하였습니다. 더욱 흥미롭게도, 우리는 모달리티에 독립적인 대응 모델들이 갖지 않은 몇 가지 흥미로운 특성을 UAVM에서 발견하기도 하였습니다.