한 달 전

다중 모드 트랜스포머 네트워크를 이용한 end-to-end 비디오 기반 대화 시스템

Hung Le; Doyen Sahoo; Nancy F. Chen; Steven C.H. Hoi
다중 모드 트랜스포머 네트워크를 이용한 end-to-end 비디오 기반 대화 시스템
초록

주어진 비디오의 시각적 및 청각적 측면을 기반으로 대화를 수행하는 비디오 기반 대화 시스템(VGDS, Video-Grounded Dialogue Systems)을 개발하는 것은 (1) 비디오의 특징 공간이 여러 프레임에 걸쳐 퍼져 있어 의미 정보를 얻기 어려우며, (2) 대화 에이전트가 다른 모달리티(음성, 비디오, 자막 등)에서 정보를 인식하고 처리하여 포괄적인 이해를 얻어야 한다는 점에서 전통적인 이미지 또는 텍스트 기반 대화 시스템보다 훨씬 어렵습니다. 대부분의 기존 연구는 복잡한 장기 의존성을(예: 비디오에서와 같이) 효과적으로 포착하기에는 부족한 RNNs(재귀 신경망)과 시퀀스-투-시퀀스 아키텍처에 기반하고 있습니다. 이를 극복하기 위해 우리는 비디오를 인코딩하고 다른 모달리티의 정보를 통합하기 위한 다중모달 트랜스포머 네트워크(MTN, Multimodal Transformer Networks)를 제안합니다. 또한, 자동 인코더를 통해 비텍스트 모달리티에서 질의 인식 특징을 추출하기 위한 질의 인식 주의 메커니즘(query-aware attention)도 제안합니다. 우리는 추론 중 생성된 응답의 품질을 개선하기 위해 토큰 수준 디코딩을 시뮬레이트하는 학습 절차를 개발했습니다. 우리는 다이얼로그 시스템 기술 챌린지 7(DSTC7, Dialogue System Technology Challenge 7)에서 최고 수준의 성능을 달성했습니다. 우리의 모델은 또 다른 다중모달 시각적 대화 작업에도 일반화되며 유망한 성능을 보여주었습니다. 우리는 PyTorch를 사용하여 모델을 구현했으며 코드는 https://github.com/henryhungle/MTN에서 공개되었습니다.

다중 모드 트랜스포머 네트워크를 이용한 end-to-end 비디오 기반 대화 시스템 | 최신 연구 논문 | HyperAI초신경