2달 전

다중 모드 트랜스포머를 이용한 미정렬 다중 모드 언어 시퀀스 처리

Yao-Hung Hubert Tsai; Shaojie Bai; Paul Pu Liang; J. Zico Kolter; Louis-Philippe Morency; Ruslan Salakhutdinov
다중 모드 트랜스포머를 이용한 미정렬 다중 모드 언어 시퀀스 처리
초록

인간 언어는 종종 다중 모드(multimodal)로 이해되며, 자연어, 얼굴 표정, 그리고 음향 행동의 혼합을 포함합니다. 그러나 이러한 다중 모드 인간 언어 시계열 데이터를 모델링하는 데 두 가지 주요 난관이 존재합니다: 1) 각 모드에서 추출된 시퀀스의 샘플링 속도가 다르기 때문에 본질적으로 데이터가 미정렬(non-aligned)되는 문제; 2) 모드 간 원소들 사이의 장거리 의존성(long-range dependencies). 본 논문에서는 이러한 문제들을 명시적으로 데이터를 정렬하지 않고 단일 과정으로 해결하기 위해 다중 모드 트랜스포머(Multimodal Transformer, MulT)를 소개합니다. 우리 모델의 핵심은 방향성 쌍방향 크로스모달 주의력(directional pairwise crossmodal attention)입니다. 이 메커니즘은 서로 다른 시간 단계에서 발생하는 다중 모드 시퀀스 간의 상호작용에 주목하며, 하나의 모달로부터 다른 모달로 스트림을 잠재적으로 적응시키는 역할을 합니다. 정렬된 및 비정렬된 다중 모드 시계열 데이터에 대한 포괄적인 실험 결과, 우리의 모델이 기존 최신 방법론(state-of-the-art methods)보다 크게 우수한 성능을 보임을 확인하였습니다. 또한 경험적 분석은 제안된 MulT 내 크로스모달 주의력 메커니즘이 연관된 크로스모달 신호를 포착할 수 있음을 시사하고 있습니다.