17일 전

다중모달 데이터 증강을 통한 엔드투엔드 수어 번역

Jinhui Ye, Wenxiang Jiao, Xing Wang, Zhaopeng Tu, Hui Xiong
다중모달 데이터 증강을 통한 엔드투엔드 수어 번역
초록

엔드투엔드 수어 번역(End-to-end Sign Language Translation, SLT)은 중간 표현을 거치지 않고 수어 영상부터 말하는 언어의 텍스트로 직접 변환하는 것을 목표로 한다. 이 작업은 수어 영상과 텍스트 사이의 모달리티 갭(모달 간 차이)과 레이블링된 데이터의 부족으로 인해 큰 도전 과제로 남아 있다. 이러한 문제들로 인해 엔드투엔드 수어 번역(즉, 영상 → 텍스트)의 입력 및 출력 분포는 글로스(Gloss) → 텍스트 접근 방식(즉, 텍스트 → 텍스트)에 비해 상대적으로 효과적이지 못하다. 이러한 문제를 해결하기 위해, 수어 글로스 번역 모델로부터 생성된 가상의 글로스-텍스트 쌍을 활용하여, 강력한 글로스-텍스트 번역 능력을 엔드투엔드 수어 번역(영상 → 텍스트)에 전이하는 새로운 크로스모달 데이터 증강(Cross-modality Data Augmentation, XmDA) 프레임워크를 제안한다. 구체적으로 XmDA는 두 가지 핵심 구성 요소로 구성된다. 첫째, 크로스모달 믹업(Cross-modality mix-up)은 수어 영상 특징과 글로스 임베딩 간의 정렬을 명시적으로 유도하여 모달 갭을 줄이는 데 기여한다. 둘째, 크로스모달 지식 전이(Cross-modality knowledge distillation)는 글로스-텍스트 교사 모델로부터 생성된 지식을 활용하여 말하는 언어 텍스트 생성을 안내한다. PHOENIX-2014T와 CSL-Daily와 같이 널리 사용되는 두 가지 SLT 데이터셋에서 수행한 실험 결과는 제안하는 XmDA 프레임워크가 기준 모델보다 유의미하고 일관되게 우수한 성능을 보임을 입증한다. 심층적인 분석을 통해 XmDA가 영상과 텍스트 간의 표현 거리 감소를 통해 말하는 언어 텍스트 생성을 향상시키며, 특히 낮은 빈도 단어와 긴 문장 처리 능력을 개선함을 확인하였다.