9일 전
간단한 다중 모달 전이 학습 베이스라인을 활용한 수어 번역
Yutong Chen, Fangyun Wei, Xiao Sun, Zhirong Wu, Stephen Lin

초록
본 논문은 수어 번역을 위한 간단한 전이 학습 기준 모델을 제안한다. 기존의 수어 데이터셋(예: PHOENIX-2014T, CSL-Daily)은 수어 영상, 글로스(annotation) 및 텍스트 쌍이 약 1만~2만 쌍 정도로, 일반적인 구두 언어 번역 모델 학습에 사용되는 병렬 데이터보다 한 차원 작다. 따라서 데이터 부족은 효과적인 수어 번역 모델 학습의 주요 한계 요인이다. 이를 완화하기 위해, 일반 도메인 데이터셋(대량의 외부 감독 신호를 포함)에서 시작하여 점진적으로 도메인 내 데이터셋으로 모델을 사전 훈련하는 전략을 제안한다. 구체적으로, 수어 → 글로스 시각 네트워크는 일반적인 인간 행동 데이터셋과 도메인 내 수어 → 글로스 데이터셋에서 사전 훈련하고, 글로스 → 텍스트 번역 네트워크는 다국어 코퍼스라는 일반 도메인과 도메인 내 글로스 → 텍스트 코퍼스에서 사전 훈련한다. 이후 두 네트워크를 연결하는 추가 모듈인 시각-언어 매핑기(visual-language mapper)를 도입하여 공동 모델을 미세 조정한다. 제안하는 이 간단한 기준 모델은 두 개의 수어 번역 벤치마크에서 기존 최고 성능을 초월하며, 전이 학습의 효과성을 입증한다. 간결한 구조와 뛰어난 성능을 갖추고 있어, 향후 연구에 있어 견고한 기준 모델로 활용될 수 있다. 코드와 모델은 다음 주소에서 제공된다: https://github.com/FangyunWei/SLRT.