17일 전

STMC-Transformer를 활용한 개선된 비언어 번역

Kayo Yin, Jesse Read
STMC-Transformer를 활용한 개선된 비언어 번역
초록

서면 언어 번역(SLT)은 먼저 서면 언어 인식(SLR) 시스템을 통해 영상에서 서면 언어 글로스(glosses)를 추출한 후, 이를 바탕으로 번역 시스템이 말하는 언어로 번역한다. 본 논문은 번역 시스템에 초점을 맞추며, PHOENIX-Weather 2014T 데이터셋에서 글로스-텍스트 번역과 영상-텍스트 번역 두 가지 작업에서 기존 최고 성능을 각각 5점과 7점 이상 상회하는 BLEU 점수로 개선한 STMC-Transformer를 제안한다. ASLG-PC12 코퍼스에서는 BLEU 점수가 16점 이상 향상됨을 보고한다.또한, 현재의 방법들이 글로스 감독에 의존할 경우 발생하는 문제를 입증한다. 본 연구에서 제안한 STMC-Transformer의 영상-텍스트 번역 성능은 참조 글로스(GT glosses) 번역 성능을 초과한다. 이는 기존의 주장과 모순되며, 참조 글로스 번역이 SLT 성능의 상한선(upper bound)을 형성한다는 주장이 잘못되었음을 시사한다. 이는 글로스가 서면 언어를 효율적으로 표현하지 못한다는 결론을 도출한다. 따라서 향후 SLT 연구를 위해, 인식 및 번역 모델을 종단 간(end-to-end)으로 훈련하는 방안 또는 다른 서면 언어 어노테이션 체계를 사용하는 방안을 제안한다.

STMC-Transformer를 활용한 개선된 비언어 번역 | 최신 연구 논문 | HyperAI초신경