다중 입력 간의 모든 상호작용을 처리할 수 있는 시각 대화를 위한 효율적인 어텐션 메커니즘

최근 시각 및 언어 작업에 대한 연구에서, 두 모달 간의 상호작용을 효과적으로 다룰 수 있는 주의 메커니즘(attention mechanism)을 설계하는 것이 핵심 과제로 부상하고 있다. 최근 Transformer는 여러 이모달 작업에 확장되어 적용되며, 희망적인 성과를 거두고 있다. 특히 시각 대화(visual dialog)의 경우, 이미지, 질문, 대화 기록 세 가지 이상의 입력 또는 그 개별 구성 요소 간의 복잡한 상호작용을 고려할 필요가 있다. 본 논문에서는 시각 대화에서 다수의 입력 간 상호작용을 효율적으로 처리할 수 있도록 설계된 신경망 아키텍처인 '다수 입력을 위한 경량 Transformer(Light-weight Transformer for Many Inputs, LTMI)'를 제안한다. 이 구조는 Transformer와 유사한 블록 구조를 가지며, 주의 메커니즘 계산 방식 또한 동일하게 적용하지만, 파라미터 수는 매우 적으면서도 충분한 표현 능력을 갖추고 있다. 표준 시각 대화 설정 하에서, 제안된 주의 블록을 기반으로 구성된 한 층은 전형적인 Transformer 확장 구조에 비해 파라미터 수가 10분의 1 미만이다. VisDial 데이터셋을 대상으로 한 실험 결과는 제안된 방법의 효과성을 입증하며, 단일 모델 기준으로 VisDial v1.0 데이터셋에서 최고 NDCG 점수가 57.59에서 60.92로 향상되었고, 앙상블 모델을 사용할 경우 64.47에서 66.53으로 개선되었으며, 추가 미세조정(finetuning)을 통해 최대 74.88까지 성능을 향상시킬 수 있었다. 본 연구의 구현 코드는 https://github.com/davidnvq/visdial 에 공개되어 있다.