2달 전
다중 모드 트랜스포머를 이용한 미정렬 다중 모드 언어 시퀀스 처리
Yao-Hung Hubert Tsai; Shaojie Bai; Paul Pu Liang; J. Zico Kolter; Louis-Philippe Morency; Ruslan Salakhutdinov

초록
인간 언어는 종종 다중 모드(multimodal)로 이해되며, 자연어, 얼굴 표정, 그리고 음향 행동의 혼합을 포함합니다. 그러나 이러한 다중 모드 인간 언어 시계열 데이터를 모델링하는 데 두 가지 주요 난관이 존재합니다: 1) 각 모드에서 추출된 시퀀스의 샘플링 속도가 다르기 때문에 본질적으로 데이터가 미정렬(non-aligned)되는 문제; 2) 모드 간 원소들 사이의 장거리 의존성(long-range dependencies). 본 논문에서는 이러한 문제들을 명시적으로 데이터를 정렬하지 않고 단일 과정으로 해결하기 위해 다중 모드 트랜스포머(Multimodal Transformer, MulT)를 소개합니다. 우리 모델의 핵심은 방향성 쌍방향 크로스모달 주의력(directional pairwise crossmodal attention)입니다. 이 메커니즘은 서로 다른 시간 단계에서 발생하는 다중 모드 시퀀스 간의 상호작용에 주목하며, 하나의 모달로부터 다른 모달로 스트림을 잠재적으로 적응시키는 역할을 합니다. 정렬된 및 비정렬된 다중 모드 시계열 데이터에 대한 포괄적인 실험 결과, 우리의 모델이 기존 최신 방법론(state-of-the-art methods)보다 크게 우수한 성능을 보임을 확인하였습니다. 또한 경험적 분석은 제안된 MulT 내 크로스모달 주의력 메커니즘이 연관된 크로스모달 신호를 포착할 수 있음을 시사하고 있습니다.